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当代 中 国 掀起 了 一 股 学 习 数 据 挖掘 和 机 器 学 习 的 热潮 ， 从 斯 坦 福 大 学 公开 课 “ 机 器 学 
习 课 程 ”， 到 龙 星 计 划 的 “机 器 学 习 Machine Learning” 课 程 ， 再 到 加 州 理工 学 院 公开 课 
“机 器 学 习 与 数据 挖掘 ”课程 ， 参 加 这 些 网 络 课程 学 习 的 人 群 日 益 壮大 ， 数 据 挖掘 和 机 器 
学 习 炙 手 可 热 。 

数据 挖掘 是 数据 库 知识 发 现 中 的 一 个 步骤 ， 它 从 大 量 数据 中 自动 提取 出 隐 含 的 、 过 去 
未 知 的 、 有 价值 的 潜在 信息 。 机 器 学 习 主 要 设计 和 分 析 一 些 让 计算 机 可 以 自动 “学 习 ” 的 
算法 ， 其 算法 是 一 类 从 数据 中 自动 分 析 获 得 规律 ， 并 利用 规律 对 未 知 数据 进行 预测 。 机 器 
学 习 和 数据 挖掘 这 两 个 领域 联系 密切 ， 数 据 挖掘 利用 机 器 学 习 提供 的 技术 来 分 析 海 量 数 
据 ， 以 发 掘 数 据 中 隐 含 的 有 用 信息 。 

数据 挖掘 和 机 器 学 习 这 两 个 密切 相关 的 领域 存在 一 个 特点 : 理论 很 强 而 实践 很 弱 。 众 
所 周知 ， 理 论 和 实践 是 研究 者 的 左 腿 和 右 腿 ， 缺 了 一 条 腿 的 研究 者 肯定 难以 前 行 ， 有 的 技 
术 人 员 花 了 若干 年 时 间 进 行 研究 ， 虽 然 了 解 甚至 熟悉 了 很 多 公式 和 算法 ， 但 仍然 难以 真正 
去 面 对 一 个 实际 挖掘 问题 并 很 好 地 解决 手 上 的 技术 难题 ， 其 根本 原因 就 是 一 一 缺乏 实践 。 

本 书 就 是 为 了 试图 解决 数据 挖掘 和 机 器 学 习 的 实践 问题 而 编写 的 ， 依 托 新 西 兰 怀 卡 托 
大 学 采用 Java 语言 开发 的 著名 开源 软件 Weka， 该 系统 自 1993 年 开始 由 新 西 兰 政府 资助 ， 
至 今 已 经 历 了 20 年 的 发 展 ， 它 的 功能 已 经 十 分 强大 和 成 熟 。Weka 集合 了 大 量 的 机 器 学 习 
和 相关 技术 ， 受 领域 发 展 和 用 户 需求 所 推动 ， 代 表 了 当今 数据 挖掘 和 机 器 学 习 领 域 的 最 高 
水 平 。 因 此 ， 研 究 Weka 能 帮助 研究 者 从 实践 去 验证 所 学 的 理论 ， 显 然 有 很 好 的 理论 意义 
或 实际 意义 。 

本 书 共 分 8 章 。 第 1 章 介 绍 Weka 的 历史 和 功能 、 数 据 挖掘 和 机 器 学 习 的 基本 概念 、 
Weka 系统 安装 ， 以 及 示例 数据 集 ; 第 2 章 介绍 Explorer 界面 的 使 用 ， 主 要 内 容 包 括 : 图 
形 用 户 界面 、 预 处 理 、 分 类 、 聚 类 、 关 联 、 选 择 属性 ， 以 及 可 视 化 ; 第 3 章 介 绍 
Knowledge Flow 界面 ， 主 要 内 容 有 知识 流 介绍 、 知 识 流 组 件 、 使 用 知识 流 组 件 ， 以 及 实践 
教程 ， 第 4 章 介绍 Experimenter 界面 ， 主 要 内 容 有 Experimenter 界面 介绍 、 标 准 实验 、 远 
程 实验 ， 以 及 分 析 实 验 结果 ; 第 5 章 介 绍 命令 行 界面 ， 主 要 内 容 有 命令 行 界面 介绍 、Weka 
结构 、 命 令 行 选项 、 过 滤器 和 分 类 器 选项 ， 以 及 Weka 包 管 理 器 ; 第 6 章 介 绍 一 些 Weka 
的 高 级 应 用 ， 主 要 介绍 Weka 的 贝 叶 斯 网 络 、 神 经 网 络 、 文 本 分 类 和 时 间 序 列 分 析 及 预 
测 ; 第 7 章 介 绍 Weka API， 介 绍 如 何 使 用 Java 源 代码 来 实现 常见 数据 挖掘 任务 的 基础 知 
识 ， 并 给 出 一 个 展示 如 何 进行 数据 挖掘 的 综合 示例 ;最 后 一 章 通 过 对 一 个 学 习 方 案 的 源 代 
码 进 行 分 析 ， 深 入 研究 Weka 学 习 方 案 的 工作 原理 ， 为 开发 人 员 提 供 一 个 编写 学 习 算法 的 
技术 基础 。 

在 阅读 大 量 相 关 文 献 的 过 程 中 ， 作 者 深 深 为 国外 前 非 们 的 理论 功底 和 实践 技能 所 折 
服 ， 那 些 巨 人 们 站 在 高 处 ， 使 人 难以 望 其 项 背 。 虽 然 得 益 于 诸如 网 易 公 开课 和 龙 星 计划 等 
项 目 ， 我 们 有 机 会 和 全 世界 站 在 同一 个 数量 级 的 知识 起 跑 线 上 ， 但是， 这 并 不 意味 着 能 在 
将 来 的 竞争 中 占据 优势 ， 正 如 孙中山 先生 所 说 “革命 尚未 成 功 ， 同 志 仍 须 努 力 ”， 让 我 们 
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一 起 共勉 。 

在 本 书 的 编写 过 程 中 ， 作 者 力求 精益 求 精 ， 但 限于 作者 的 知识 和 能 力 ， 且 很 多 材料 都 
难以 获取 ， 考 证 和 去 伪 存 真是 一 件 时 间 开 销 非 常 大 和 异常 困难 的 工作 ， 因 此 肯定 会 有 所 遗 
漏 及 不 妥 之 处 ， 敬 请 广大 读者 批评 指正 。 

作者 专门 为 本 书 设置 读者 QQ 群 ， 群 号 245295017， 欢 迎 读者 加 群 ， 下 载 和 探讨 书 中 
源 代码 ， 抒 写 读书 心得 ， 进 行 技术 交流 等 。 

本 书 承蒙 很 多 朋友 、 同 事 的 帮助 才 得 以 成 文 。 特 别 感谢 Weka 开发 组 的 全 体 人 员 ， 他 
们 将 自己 20 年 心血 汇聚 的 成 果 开 源 ， 对 本 领域 贡献 巨大 ， 衷 心 感谢 清华 大 学 出 版 社 的 编 
辑 老师 在 内 容 组 织 、 排 版 ， 以 及 出 版 方面 提出 的 建设 性 意见 和 给 予 的 无 私 帮 助 ; 感谢 昆明 
理工 大 学 提供 的 宽松 的 研究 环境 ， 感 谢 昆明 理工 大 学 计算 机 系 教师 缪 祥 华 博士 ， 他 为 本 书 
的 成 文 提出 了 很 多 建设 性 的 建议 ， 对 本 书 的 改进 帮助 甚大 ， 感谢 昆 明理 工大 学 计算 机 系 海 
归 博 士 吴 霖 老师 ， 他 经 常 和 作者 一 起 讨论 机 器 学 习 的 技术 问题 ， 他 为 本 书 的 编写 贡献 了 很 
多 智慧 ， 感谢 昆明 理工 大 学 现代 教育 中 心 的 何 佳 老师 ， 他 完成 了 本 书 部 分 代码 的 编写 和 测 
试 工作 ; 感谢 国内 外 的 同行 们 ， 他 们 在 网 络 论坛 和 博客 上 发 表 了 众多 卓 有 见 识 的 文章 ， 作 
者 从 中 学 习 到 很 多 知识 ， 由 于 来 源 比较 琐碎 ， 无 法 一 一 列举 ， 感 谢 他们 对 本 书 的 贡献 感 
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Weka 介绍 


Weka 是 新 西 兰 怀 卡 托 大 学 用 Java 开发 的 数据 挖 握 著 名 开源 软件 ， 该 
系统 自 1993 年 开始 由 新 西 兰 政府 资助 ， 至 今 已 经 历 了 20 年 的 发 展 ， 其 功 
能 已 经 十 分 强大 和 成 熟 。Weka 集合 了 大 量 的 机 器 学 习 和 相关 技术 ， 受 
域 发展 和 用 户 需求 所 推动 ， 代 表 了 当今 数据 挖掘 和 机 器 学 习 领域 的 最 高 
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1.1 Weka 简介 


Weka 是 怀 卡 托 智能 分 析 环 境 (Waikato Environment for Knowledge Analysis) 的 英文 字 首 
缩写 ， 官 方 网 址 为 :http://www.cs.waikato.ac.nz/ml/weka， 在 该 网 站 可 以 免费 下 载 可 运行 软 
件 和 源 代 码 ， 还 可 以 获得 说 明文 档 、 常 见 问题 解答 、 数 据 集 和 其 他 文献 等 资源 。Weka 的 
音 类 似 新 西 兰 本 土 一 种 不 会 飞 的 鸟 ， 如 图 1.1 所 示 ， 因 此 Weka 系统 使 用 该 鸟 作为 其 
徽标 。 


图 1.1 Weka( 或 woodhen) 乌 ? 


Weka 是 一 种 使 用 Java 语言 编写 的 数据 挖掘 机 器 学 习 软 件 ， 是 GNU 协议 下 分 发 的 开源 
软件 。Weka 主要 用 于 科研 、 教 育 和 应 用 领域 ， 还 作为 Ian H. Witten、Frank Eibe 和 Mark A. 
Hall 三 人 合 著 的 著名 书籍 一 《Data Mining 一 Practical Machine Leaming Tools and Techniques, 
Third Edition》( 数 据 挖掘 : 实用 机 器 学 习 工 具 与 技术 ， 第 3 版 ) 的 实践 方面 的 重要 补充 ， 该 
书 于 2011 年 由 Elsevier 出 版 。 

Weka 是 一 套 完整 的 数据 处 理工 具 、 学 习 算 法 和 评价 方法 ， 包 含 数据 可 视 化 的 图 形 用 

户 界 面 ， 同 时 该 环境 还 可 以 比较 和 评估 不 同 的 学 习 算法 的 性 能 。 
内 外 很 多 著名 大 学 都 采用 Weka 作为 数据 挖掘 和 机 器 学 习 课程 的 实践 工具 。Weka 还 
有 另外 一 个 名 字 叫 作 Pentaho Data Mining Community Edition(Pentaho 数据 挖掘 社区 版 )， 此 
外 ，Pentaho 的 网 站 (http://weka.pentaho.com/) 还 维护 一 个 称 为 Pentaho Data Mining 
Enterprise Edition(Pentaho 数据 挖掘 企业 版 ) 的 版 本 ， 它 主要 提供 技术 支持 和 管理 升级 。 另 
一 个 用 Java 编写 的 著名 数据 挖掘 工具 RapidMiner 通过 Weka Extension(Weka 扩展 ) 支 持 
Weka， 以 充分 利用 Weka 的 “ 约 100 个 额外 的 建 模 方案 ， 其 中 包括 额外 的 决策 树 、 规 则 学 
习 器 和 回归 估计 器 ”， 参 见 网 址 http://rapid-i.com/content/view/202/206/。 


1.1.1 Weka 历史 


怀 卡 托 机 器 学 习 团队 宣称 : 我 们 团队 的 总 体 目标 是 要 建立 最 先进 的 软件 开发 机 器 学 习 
技术 ， 并 将 其 应 用 于 解决 现实 世界 的 数据 挖掘 问题 。 团 队 具 体 目标 是 : 使 机 器 学 习 技术 容 


Q@ 来 源 : Weka _a tool for exploratory_data_mining.ppt。http://sourceforge.net/projects/weka/files/documentation/ 
Initial%20upload%20and%20presentations/Weka_a_ tool for exploratory_data_mining.ppt/download? 


Use_mirror=neu 


易 获得 ， 并 将 其 应 用 到 解决 新 西 兰 工业 的 重大 实际 问题 ， 开 发 新 的 机 器 学 习 算 法 并 推 向 世 
界 ， 为 该 领域 的 理论 框架 作出 贡献 。 

1992 年 末 ， 新 西 兰 怀 卡 托 大 学 计算 机 科学 系 Ian Witten 博士 申请 基金 ，1993 年 获 新 西 
兰 政府 资助 ， 并 于 同年 开发 出 接口 和 基础 架构 。 次 年 发 布 了 第 一 个 Weka 的 内 部 版 本 ， 两 
年 后 ， 在 1996 年 10 月 ， 第 一 个 公开 版 本 (Weka 2.1) 发 布 。Weka 早期 版 本 主要 采用 C 语言 
编写 ，1997 年 初 ， 团 队 决 定 使 用 Java 重新 改写 ， 并 在 1999 年 中 期 发 布 纯 Java 的 Weka 3 
版 本 。 选 定 Java 来 实现 Ian Witten 著作 《Data Mining》 的 配套 机 器 学 习 技术 是 有 充分 理由 
的 ， 作 为 一 个 著名 的 面向 对 象 的 编程 语言 ，Java 允许 用 一 个 统一 的 接口 来 进行 学 习 方 案 和 
方法 的 预 处 理 和 后 处 理 。 决 定 使 用 Java 来 替代 C++ 或 其 他 面向 对 象 的 语言 ， 是 因为 Java 
编写 的 程序 可 以 运行 在 绝 大 部 分 计算 机 上 ， 而 无 须 重 新 编译 ， 更 不 需要 修改 源 代码 。 已 经 
测试 过 的 平台 包括 Linux、Windows 和 Macintosh 操作 系统 ， 甚 至 包括 PDA。 最 后 的 可 执 
行程 序 复制 过 来 即 可 运行 ， 完 全 绿色 ， 不 要 求 复杂 安装 。 当 然 ，Java 也 有 其 缺点 ， 最 大 的 
问题 是 它 在 速度 上 有 缺陷 ， 执 行 一 个 Java 程序 比 对 应 的 C 语言 程序 要 慢 上 好 几 倍 。 综 合 
来 看 ， 对 于 Weka 来 说 ，Java“ 一 次 编译 ， 到 处 运行 ”的 吸引 力 远 远 超出 对 性 能 的 渴望 。 

截止 到 2013 年 2 月 ，Weka 最 新 的 版 本 是 3.7.8， 这 是 2013 年 1 月 24 日 发 布 的 稳定 
版 ， 本 书 基于 该 版 本 。 


1.1.2 ”Weka 功能 简介 


Weka 系统 汇集 了 最 前 沿 的 机 器 学 习 算法 和 数据 预 处 理工 具 ， 以 便 用 户 能 够 快速 灵活 
地 将 已 有 的 处 理 方法 应 用 于 新 的 数据 集 。 它 为 数据 挖掘 的 整个 过 程 提供 全 面 的 支持 ， 包 括 
准备 输入 数据 、 统 计 评估 学 习 方 案 、 输 入 数据 和 学 习 效果 的 可 视 化 。Weka 除了 提供 大 量 
学 习 算法 之 外 ， 还 提供 了 适应 范围 很 广 的 预 处 理工 具 ， 用 户 通过 一 个 统一 界面 操作 各 种 组 
件 ， 比 较 不 同 的 学 习 算法 ， 找 出 能 够 解决 问题 的 最 有 效 的 方法 。 

Weka 系统 包括 处 理 标准 数据 挖掘 问题 的 所 有 方法 : 回归 、 分 类 、 聚 类 、 关 联 规则 以 
及 属性 选择 。 分 析 要 进行 处 理 的 数据 是 重要 的 一 个 环节 ，Weka 提供 了 很 多 用 于 数据 可 视 
化 和 预 处 理 的 工具 。 输 入 数据 可 以 有 两 种 形式 ， 第 一 种 是 以 ARFF 格式 为 代表 的 文件 ， 另 
一 种 是 直接 读 取 数据 库 表 。 

使 用 Weka 的 方式 主要 有 三 种 : 第 一 种 是 将 学 习 方案 应 用 于 某 个 数据 集 ， 然 后 分 析 其 
输出 ， 从 而 更 多 地 了 解 这 些 数据 ， 第 二 种 是 使 用 已 经 学 习 到 的 模型 对 新 实例 进行 预测 ， 第 
三 种 是 使 用 多 种 学 习 器 ， 然 后 根据 其 性 能 表现 选择 其 中 的 一 种 来 进行 预测 。 用 户 使 用 交互 
式 界面 菜单 中 选择 一 种 学 习 方法 ， 大 部 分 学 习 方案 都 带 有 可 调节 的 参数 ， 用 户 可 通过 属性 
列表 或 对 象 编辑 器 修改 参数 ， 然 后 通过 同一 个 评估 模块 对 学 习 方案 的 性 能 进行 评估 。 

Weka 主 界面 称 为 Weka GUI 选择 器 ， 它 通过 右边 的 四 个 按钮 提供 四 种 主要 的 应 用 程 
序 供用 户 选择 ， 如 图 1.2 所 示 ， 用 鼠标 单 击 按钮 进入 到 相应 的 图 形 用 户 界面 。 

其 中 ，Weka 系统 提供 的 最 容易 使 用 的 图 形 用 户 接 口 称 为 探索 者 (Explorer)。 通 过 选择 
菜单 和 填写 表单 ， 可 以 调用 Weka 的 所 有 功能 。 例 如 ， 用 户 用 鼠标 仅仅 单 击 几 个 按钮 ， 就 
可 以 完成 从 ARFF 文件 中 读 取 数据 集 ， 然 后 建立 决策 树 的 工作 。Weka 界面 十 分 友好 ， 能 
适时 地 将 不 宜 用 的 功能 选项 设置 为 不 可 选 ， 将 用 户 选 项 设计 为 表格 方式 以 方便 填写 ， 当 鼠 
标 移动 到 界面 工具 上 短暂 停留 时 ， 会 给 出 用 法 提示 ; 对 算法 都 给 出 较为 合理 的 默认 值 ， 这 
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样 ， 帮 助 用 户 尽量 少 花 精 力 进行 配置 就 可 取得 较 好 的 效果 等 。 
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1.2 Weka 主 界面 


虽然 探索 者 界面 使 用 很 方便 ， 但 它 也 存在 一 个 缺陷 ， 要 求 它 将 所 需 数据 全 部 一 次 读 进 
内 存 ， 一 旦 用 户 打开 某 个 数据 集 ， 就 会 读 取 全 部 数据 。 因 此 ， 这 种 批量 方式 仅 适合 处 理 中 
小 规模 的 问题 。 知 识 流 刚 好 能 够 弥补 这 一 缺陷 。 

知识 流 (KnowledgeFlow) 界 面 可 以 使 用 增 量 方式 的 算法 来 处 理 大 型 数据 集 ， 用 户 可 以 定 
制 处 理 数据 流 的 方式 和 顺序 。 知 识 流 界面 允许 用 户 在 屏幕 上 任意 拖 忠 代表 学 习 算法 和 数据 
源 的 图 形 构件 ， 并 以 一 定 的 方式 和 顺序 组 合 在 一 起 。 也 就 是 ， 按 照 一 定 顺序 将 代表 数据 
源 、 预 处 理工 具 、 学 习 算 法 、 评 估 手 段 和 可 视 化 模块 的 各 构件 组 合 在 一 起 ， 形 成 数据 流 。 
如 果 用 户 选 取 的 过 滤器 和 学 习 算 法 具有 增 量 学 习 功能 ， 那 就 可 以 实现 大 型 数据 集 的 增 量 分 
批 读 取 和 处 理 。 

实验 者 (ExperimenteD) 界 面 用 于 帮助 用 户 解答 实际 应 用 分 类 和 回归 技术 中 遇 到 的 一 个 基 
本 问题 一 一 对 于 一 个 已 知 问题 ， 哪 种 方法 及 参数 值 能 够 取得 最 佳 效 果 ? 通过 Weka 提供 的 
实验 者 工作 环境 ， 用 户 可 以 比较 不 同 的 学 习 方案 。 尽 管 探索 者 界面 也 能 通过 交互 完成 这 样 
的 功能 ， 但 通过 实验 者 界面 ， 用 户 可 以 让 处 理 过 程 实现 自动 化 。 实 验 者 界面 更 加 容易 使 用 
不 同 参数 去 设置 分 类 器 和 过 滤器 ， 使 之 运行 在 一 组 数据 集中 ， 收 集 性 能 统计 数据 ， 实 现 重 
要 的 测试 实验 。 

简单 命令 行 (Simple CLD 界 面 是 为 不 提供 自己 的 命令 行 界面 的 操作 系统 提供 的 ， 该 简单 
命令 行 界 面 用 于 和 用 户 进行 交互 ， 可 以 直接 执行 Weka 命令 。 


1.2 基本 概念 


上 节 简 要 介绍 了 Weka， 读 者 也 许 迫 不 及 待 地 想 进 一 步 深 入 了 解 并 使 用 Weka 来 完成 数 
据 挖掘 工作 。 但 是 ， 在 此 之 前 ， 有 必要 先 了 解数 据 挖掘 和 机 器 学 习 的 一 些 基本 概念 ， 为 进 
一 步 地 学 习 打下 基础 。 

1.2.1 数据 挖掘 和 机 器 学 习 


数据 挖掘 和 机 器 学 习 这 两 项 技术 的 关系 非常 密切 。 机 器 学 习 方法 构成 数据 挖掘 的 核 
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心 ， 绝 大 多 数 数据 挖掘 技术 都 来 自 机 器 学 习 领 域 ， 数 据 挖掘 又 向 机 器 学 习 提出 新 的 要 求 和 
任务 。 

数据 挖掘 就 是 在 数据 中 寻找 模式 的 过 程 。 这 个 寻找 过 程 必须 是 自动 的 或 半自动 的 ， 并 
且 数 据 总 量 应 该 是 具有 相当 大 的 规模 ， 从 中 发 现 的 模式 必须 有 意义 并 能 产生 一 定 的 效益 。 
通常 ， 数 据 挖掘 需要 分 析 数 据 库 中 的 数据 来 解决 问题 ， 如 客户 忠诚 度 分 析 、 市 场 购 物 篮 分 
析 ， 等 等 。 

当今 已 进入 海量 数据 时 代 。 例 如 ， 全 世界 已 经 有 约 1 000 000 000 000 个 网 页 沃尔玛 
仅 一 个 小 时 就 有 一 百 万 的 交易 量 ， 其 数据 库 里 数据 已 有 2.5 拍 ( 即 2.5x1025) 字 节 的 信息 ， 
等 等 。 

这 些 海量 数据 不 可 能 采用 手工 方式 进行 处 理 ， 因 此 ， 和 迫切 要 求 能 进行 数据 分 析 的 自动 
化 方法 ， 这 些 都 由 机 器 学 习 提 供 。 

机 器 学 习 定义 为 能 够 自动 寻找 数据 中 的 模式 的 一 套 方法 ， 然 后 ， 使 用 所 发 现 的 模式 来 
预测 将 来 的 数据 ， 或 者 在 各 种 不 确定 的 条 件 下 进行 决策 。 

机 器 学 习 分 为 两 种 主要 类 型 。 第 一 种 称 为 有 监督 学 习 ， 或 称 为 预测 学 习 ， 其 目标 是 在 
给 定 一 系列 输入 输出 实例 所 构成 的 数据 集 的 条 件 下 ， 学 习 输 入 x 到 输出 y 的 映射 关系 。 这 
里 的 数据 集 称 为 训练 集 ， 实 例 的 个 数 称 为 训练 样本 数 。 第 二 种 机 器 学 习 类 型 称 为 无 监督 学 
习 ， 或 称 为 描述 学 习 ， 在 给 定 一 系列 仅 由 输入 实例 构成 的 数据 集 的 条 件 下 ， 其 目标 是 发 现 
数据 中 的 有 趣 模式 。 无 监督 学 习 有 时 候 也 称 为 知识 发 现 ， 这 类 问题 并 没有 明确 定义 ， 因 为 
我 们 不 知道 需要 寻找 什么 样 的 模式 ， 也 没有 明显 的 误差 度量 可 供 使 用 。 而 对 于 给 定 的 x， 
有 监督 学 习 可 以 对 所 观察 到 的 值 与 预测 的 值 进行 比较 。 


1.2.2 ”数据 和 数据 集 


根据 应 用 的 不 同 ， 数 据 挖掘 的 对 象 可 以 是 各 种 各 样 的 数据 ， 这 些 数据 可 以 以 各 种 形式 
存储 ， 如 数据 库 、 数 据 仓 库 、 数 据 文件 、 流 数据 、 多 媒体 、 网 页 ， 等 等 。 即 可 以 集中 存储 
在 数据 存储 库 中 ， 也 可 以 分 布 在 世界 各 地 的 网 络 服务 器 上 。 

通常 将 数据 集 视 为 待 处 理 的 数据 对 象 的 集合 。 由 于 历史 原因 ， 数 据 对 象 有 多 个 别名 ， 
如 记录 、 点 、 行 、 向 量 、 案 例 、 样 本 、 观 测 等 。 数 据 对 象 也 是 对 象 ， 因 此 ， 可 以 用 刻画 对 
象 基本 特征 的 属性 来 进行 描述 。 属 性 也 有 多 个 别名 ， 如 变量 、 特 征 、 字 段 、 维 、 列 ， 等 等 。 

数据 集 可 以 类 似 于 一 个 二 维 的 电子 表格 或 数据 库 表 。 在 最 简单 的 情形 下 ， 每 个 训练 输 
入 总 是 一 个 NN 维 的 数值 向 量 ， 表 示 特 定 事物 的 一 些 特 征 ， 如 人 的 身高 、 体 重 。 这 些 特 征 也 
可 以 称 为 属性 ， 有 时 xi 也 可 以 是 复杂 结构 的 对 象 ， 如 图 像 、 电 子 邮 件 、 时 间 序 列 、 语 
句 等 。 

属性 可 以 分 为 四 种 类 型 : 标 称 (nominal)、 序 数 (ordinal)、 区 间 (interval)) 和 比率 (ratio)， 
其 中 ， 标 称 属 性 的 值 仅仅 是 不 同 的 名 称 ， 即 ， 标 称 值 仅 提供 区 分 对 象 的 足够 信息 ， 如 性 别 
( 男 、 女 )、 衣 服 颜 色 ( 红 、 黄 、 蓝 )、 天 气 ( 阴 、 晴 、 献 、 多 云 ) 等 ; 序数 属性 的 值 可 以 提供 确 
定 对 象 的 顺序 的 足够 信息 ， 如 成 绩 等 级 ( 优 、 良 、 中 、 及 格 、 不 及 格 )、 职 称 ( 初 职 、 中 职 、 
高 职 )、 学 生 (本 科 生 、 硕 士 生 、 博 士 生 ) 等 ， 区 间 属 性 的 值 之 间 的 差 是 有 意义 的 ， 即 存在 测 
量 单位 ， 如 温度 、 日 历 日 期 等 ， 比 率 属性 的 值 之 间 的 差 和 比值 都 是 有 意义 的 ， 如 绝对 温 
度 、 年 龄 、 长 度 、 成 绩 分 数 等 。 
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标 称 属性 和 序数 属性 统称 为 分 类 的 (Categorical) 或 定性 的 (Qualitative) 属 性 ， 它 们 的 取 值 
为 集合 ， 即 使 使 用 数值 来 表示 ， 也 不 具备 数 的 大 部 分 性 质 ， 因 此 ， 应 该 像 对 待 符号 一 样 对 
待 ， 区 间 属 性 和 比率 属性 统称 为 定量 的 (Quantitative) 或 数值 的 (Numeric) 属 性 ， 定 量 属性 采 
用 数值 来 表示 ， 具 备 数 的 大 部 分 性 质 ， 可 以 使 用 整数 值 或 连续 值 来 表示 。 

大 部 分 数据 集 都 以 数据 库 表 和 数据 文件 的 形式 存在 ，Weka 支持 读 取 数 据 库 表 和 多 种 
格式 的 数据 文件 ， 其 中 ， 使 用 最 多 的 是 一 种 称 为 ARFF 格式 的 文件 。 


1.2.3 ARFF 格式 


ARFF 是 一 种 Weka 专用 的 文件 格式 ， 由 Andrew Donkin 创立 ， 有 传言 说 ARFF 代表 
Andrew's Ridiculous File Format( 安 德 鲁 的 荒唐 文件 格式 )， 但 在 Weka 的 正式 文档 中 明确 说 
明 ARFF 代表 Attribute-Relation File Format( 属 性 一 关系 文件 格式 )。 该 文件 是 ASCII 文本 文 
件 ， 描 述 共 享 一 组 属性 结构 的 实例 列表 ， 由 独立 且 无 序 的 实例 组 成 ， 是 Weka 表示 数据 集 
的 标准 方法 ，ARFF 不 涉及 实例 之 间 的 关系 。 

在 Weka 安装 目录 下 的 data 子 目录 中 ， 可 以 找到 名 称 为 weather.numeric.arff 的 天 气 数 
据 文件 ， 其 内 容 如 程序 清单 1.1 所 示 。 数 据 集 是 实例 的 集合 ， 每 个 实例 包含 一 定 的 属性 ， 
属性 的 数据 类 型 包括 如 下 几 类 : 标 称 型 (nominal) 只 能 取 预 定义 值 列表 中 的 一 个 ， 数 字 型 
(numeric)， 只 能 是 实数 或 整数 ， 字 符 串 (string)， 这 是 一 个 由 双 引 号 引用 的 任意 长 度 的 字符 
列表 ; 另外 还 有 日 期 型 (date) 和 关系 型 (relational)。ARFF 文件 就 是 实例 类 型 的 外 部 表示 ， 
其 中 包括 一 个 标题 头 (headeD， 以 描述 属性 的 类 型 ， 还 包含 一 个 用 逗号 分 隔 的 列表 所 表示 的 
数据 部 分 (data)。 


程序 清单 1.1 天 气 数据 的 ARFF 文件 


% This is a toy example, the UCI weather dataset. 
sg Any relation to real weather is purely coincidental. 


@relation weather 


@attribute outlook {sunny, overcast, rainy} 
Q@attribute temperature real 

Q@attribute humidity real 

@attribute windy {TRUE, FALSE} 

@attribute play {yes, no} 


@data 

sunny, 85, 85, FALSE, no 
sunny, 80, 90, TRUE, no 
overcast, 83, 86, FALSE, yes 
rainy, 70, 96, FALSE, yes 
rainy, 68, 80, FALSE, yes 
rainy, 65, 70, TRUE, no 
overcast, 64, 65, TRUE, yes 
sunny, 72, 95, FALSE, no 
sunny, 69, 70, FALSE, yes 
rainy, 75, 80, FALSE, yes 


sunny, 75, 70, TRUE, yes 

overcast, 72, 90, TRUE, yes 

overcast, 81, 75, FALSE, yes 

rainy, 71, 91, TRUE, no 

上 述 代码 中 ， 以 百 分 号 “%” 开 始 的 行 称 为 注释 行 。 与 计算 机 编程 语言 类 似 ， 最 前 面 
的 注释 行 应 该 写 明 数据 集 的 来 源 、 用 途 和 含义 。 

@relation 一 行 定义 内 部 数据 集 的 名 称 
解 。Relation 也 称 为 关系 。 

@attribute outlook {sunny, overcast, rainy} 行 定义 名 称 为 outlook 的 标 称 型 属性 ， 有 三 个 
取 值 : sunny、overcast 和 rainy。 按 照 同 样 的 方式 ，@attribute windy {TRUE, FALSE} 行 和 
@attribute play {yes, no} 行 分 别 定 义 windy 和 play 两 个 标 称 型 属性 。 要 注意 的 是 ， 最 后 一 
个 属性 缺 省 为 用 于 预测 的 类 别 变量 。 本 例 中 ， 类 别 变量 为 标 称 型 属性 play， 它 只 能 取 两 个 
值 之 一 ， 使 得 天 气 问 题 成 为 二 元 (binary) 的 分 类 问题 。 

@attribute temperature real 定义 名 称 为 temperature 的 数值 型 属性 ，@attribute humidity 
real 定义 名 称 为 humidity 的 数值 型 属性 。 这 两 个 属性 都 是 实数 型 。 

@data 标志 后 的 各 行 构成 数据 集 。 每 行为 一 个 实例 样本 ， 由 采用 逗号 分 隔 的 值 组 成 ， 
顺序 与 由 @attribute 所 定义 属性 的 顺序 一 致 。 

本 例 没 有 使 用 字符 串 类 型 和 日 期 类 型 ， 在 将 来 的 学 习 中 会 遇 到 这 两 种 类 型 。 


1.2.4” 预 处 理 


数据 挖掘 是 在 大 量 的 、 潜 在 有 用 的 数据 中 挖掘 出 有 用 模式 的 过 程 。 因 此 ， 源 数据 的 质 
量 直接 影响 到 挖掘 的 效果 ， 高 质量 的 数据 是 进行 有 效 挖掘 的 前 提 。 但 是 ， 由 于 数据 挖掘 所 
使 用 的 数据 往往 不 是 专门 为 挖掘 准备 的 ， 期 望 数据 质量 完美 并 不 现实 ， 人 的 错误 、 测 量 设 
备 的 限制 以 及 数据 收集 过 程 的 漏洞 都 可 能 导致 一 些 问 题 ， 如 缺失 值 和 离 群 值 。 

由 于 无 法 在 数据 的 源头 控制 质量 ， 数 据 挖掘 只 能 通过 以 下 两 个 方面 设法 避免 数据 质量 
问题 ，Q@ 数 据 质量 问题 的 检测 与 纠正 ，@ 使 用 能 容忍 低 质 量 数据 的 算法 。 第 一 种 方式 在 数 
据 挖掘 前 检测 并 纠正 一 些 质量 问题 ， 这 个 过 程 称 为 数据 预 处 理 ， 第 二 种 方式 需要 提高 算法 
的 健壮 性 。 

数据 预 处 理 是 数据 挖掘 的 重要 步 又， 数据 挖掘 者 的 大 部 分 时 间 和 精力 都 要 花 在 预 处 理 
阶段 。Weka 专门 提供 若干 过 滤器 进行 预 处 理 ， 还 在 探索 者 界面 中 提供 选择 属性 标签 页 专 
门 处 理 属性 的 自动 选择 问题 。 数 据 预 处 理 涉 及 的 策略 和 技术 非常 广泛 ， 主 要 包括 如 下 技术 。 

1) 聚集 

聚集 (Aggregation) 就 是 将 两 个 或 多 个 对 象 合并 为 单个 对 象 。 一 般 来 说 ， 定 量 数据 通常 
通过 求 和 或 求 平均 值 的 方式 进行 聚集 ， 定 性 数据 通常 通过 汇总 进行 聚集 。 聚 集 通过 数据 归 
约 来 减少 数据 量 ， 所 导致 的 较 小 数据 集 只 需要 较 少 内 存 和 处 理 时 间 的 开销 ， 因 此 ， 可 以 使 
用 开销 更 大 的 数据 挖 握 算法。 另外， 聚集 使 用 高 层 数 据 视图 ， 起 到 了 范围 或 度量 转换 的 作 
用 。 虽 然 站 在 很 高 的 角度 去 检视 问题 容易 避免 只 见 树木 不 见 森 林 的 问题 ， 但 也 可 能 导致 有 
趣 细 节 的 丢失 。 


weather， 名 称 应 简洁 明了 ， 尽 可 能 容易 理 
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2) 抽样 

如 果 处 理 全 部 数据 的 开销 太 大 ， 数 据 预 处 理 可 以 使 用 抽样 ， 只 选择 数据 对 象 的 子 集 进 
行 分 析 。 使 用 抽样 可 以 压缩 数据 量 ， 因 此 ， 能 够 使 用 效果 更 好 但 开销 较 大 的 数据 挖掘 算 
法 。 由 于 抽样 是 一 个 统计 过 程 ， 好 的 抽样 方案 就 是 确保 以 很 高 的 概率 得 到 有 代表 性 的 样 
本 ， 即 : 样本 近似 地 具有 原 数据 相同 的 性 质 。 

抽样 方式 有 多 种 ， 最 简单 的 抽样 是 选取 每 一 个 数据 行 作为 样本 的 概率 都 相同 ， 这 称 为 
简单 随机 抽样 ， 又 分 为 有 放 回 抽样 和 无 放 回 抽样 两 种 形式 ， 前 者 是 从 N 个 数据 行 中 以 概率 
UN 分 别 随 机 抽取 出 n 个 数据 行 ， 构 成 样本 子 集 ; 后 者 与 有 放 回 抽样 的 过 程 相似 ， 但 每 次 
都 要 删除 原 数 据 集 中 己 经 抽取 出 来 的 数据 行 。 显 然 ， 有 放 回 抽样 得 到 的 样本 子 集 有 可 能 
复 抽取 到 相同 的 数据 行 。 

当 整 个 数据 集 由 差异 较 大 的 数据 行 构成 时 ， 简 单 随机 抽样 可 能 无 法 抽取 到 不 太 频 繁 出 
现 的 数据 行 ， 这 会 导致 得 到 的 样本 不 具 代 表 性 。 分 层 抽样 (Stratified Sampling) 尽 量 利用 事 
先 掌 握 的 信息 ， 充 分 考虑 保持 样本 结构 和 总 体 结 构 的 一 致 性 以 提高 样本 的 代表 性 。 其 步 又 
是 ， 先 将 数据 集 按 某 种 特征 分 为 若干 不 相交 的 “ 层 ”， 然 后 再 从 每 一 层 中 进行 简单 随机 抽 
样 ， 从 而 得 到 具有 代表 性 的 抽样 数据 子 集 。 

3) 维度 归 约 

维度 是 指数 据 集中 属性 的 数目 。 维 度 归 约 (Dimension Reduction) 是 指 创建 新 属性 ， 通 过 
数据 编码 或 数据 变换 ， 将 一 些 旧 属 性 合并 在 一 起 以 降低 数据 集 的 维度 。 

维度 归 约 可 以 删除 不 相关 的 属性 并 降低 噪声 ， 维 度 降 低 会 使 许多 数据 挖掘 的 算法 变 得 
更 好 ， 还 能 消除 了 维 灾难 带 来 的 负面 影响 。 维 灾难 是 指 ， 随 着 维度 的 增加 ， 数 据 在 它 所 占 
的 空间 越 来 越 稀疏 ， 对 于 分 类 问题 ， 这 意味 着 可 能 没有 足够 的 数据 对 象 来 创建 模型 ， 对 于 
聚 类 问题 ， 点 之 间 的 密度 和 距离 的 定义 失去 意义 。 因 此 ， 对 于 高 维 数据 ， 许 多 分 类 和 聚 类 
等 学 习 算法 的 效果 都 不 理想 。 维 度 归 约 使 模型 的 属性 更 少 ， 因 而 可 以 产生 更 容易 理解 的 
模型 。 

4) 属性 选择 

除 维度 归 约 外 ， 降 低 维度 的 另 一 种 方法 是 仅 只 使 用 属性 的 一 个 子 集 。 表 面 看 来 似乎 这 
种 方法 可 能 丢失 信息 ， 但 很 多 情况 下 ， 数 据 集 存在 元 余 或 不 相关 的 属性 。 其 中 ， 苑 余 属 性 
是 指 某 个 属性 包含 了 其 他 属性 中 的 部 分 或 全 部 信息 ， 不 相关 属性 是 指 对 于 手头 数据 挖掘 任 
务 几 乎 完全 没有 用 处 的 信息 。 属 性 选择 是 指 从 数据 集中 选择 最 具 代 表 性 的 属性 子 集 ， 删 除 
宛 余 或 不 相关 的 属性 ， 从 而 提高 数据 处 理 的 效率 ， 使 模型 更 容易 理解 。 

最 简单 的 属性 选择 方法 是 使 用 常识 或 领域 知识 ， 以 消除 一 些 不 相关 或 元 余 属性 ， 但 
是 ， 选 择 最 佳 的 属性 子 集 通常 需要 系统 的 方法 。 理 想 的 属性 选择 方法 是 : 将 全 部 可 能 的 属 
性 子 集 作 为 数据 挖掘 学 习 算法 的 输入 ， 然 后 选取 能 产生 最 好 结果 的 子 集 。 这 种 方法 反映 了 
对 最 终 使 用 的 数据 挖掘 算法 的 目的 和 偏爱 。 但 是 ， 由 于 n 个 属性 的 子 集 的 数量 多 达 2" 个， 
大 部 分 情况 下 行 不 通 。 因 此 ， 需 要 考虑 三 种 标准 的 属性 选择 方法 : 嵌入 、 过 滤 和 包装 。 

嵌入 方法 (Embedded Approach) 将 属性 选择 作为 数据 挖掘 算法 的 一 部 分 。 在 挖掘 算法 运 
行 期 间 ， 算 法 本 身 决 定 使 用 哪些 属性 以 及 忽略 哪些 属性 。 决 策 树 算法 通常 使 用 这 种 方法 。 

过 滤 方 法 (Filter Approach) 在 运行 数据 挖掘 算法 之 前 ， 使 用 独立 于 数据 挖掘 任务 的 方法 
进行 属性 选择 ， 即 : 先 过 滤 数据 集 产生 一 个 属性 子 集 。 


包装 方法 (Wrapper Approach) 将 学 习 算法 的 结果 作为 评价 准则 的 一 部 分 ， 使 用 类 似 于 前 
文 介 绍 的 理想 算法 ， 但 通常 无 法 枚 举 出 全 部 可 能 的 子 集 以 找 出 最 佳 属性 子 集 。 

根据 属性 选择 过 程 是 否 需要 使 用 类 别 信 息 ， 属 性 选择 可 分 为 有 监督 属性 选择 和 无 监督 
属性 选择 。 前 者 通过 度量 类 别 信息 与 属性 之 间 的 相互 关系 来 确定 属性 子 集 ， 后 者 不 使 用 类 
别 信息 ， 使 用 聚 类 方法 评估 属性 的 贡献 度 ， 根 据 贡 献 度 来 确定 属性 子 集 。 

5) 属性 创建 

属性 创建 就 是 通过 对 数据 集中 旧 的 属性 进行 处 理 ， 创 建新 的 数据 集 ， 这 样 能 更 有 效 的 
获取 重要 的 信息 。 由 于 通常 新 数据 集 的 维度 比 原 数据 集 少 ， 因 此 ， 可 以 获得 维度 归 约 带 来 
的 好 处 。 属 性 创建 有 三 种 方法 : 属性 提取 、 映 射 数据 到 新 空间 和 属性 构造 。 

属性 提取 是 指 由 原始 数据 创建 新 的 属性 集 。 例 如 ， 对 照片 数据 进行 处 理 ， 提 取 一 些 较 
高 层次 的 特征 ， 诸 如 与 人 脸 高 度 相 关 的 边 和 区 域 等 ， 就 可 以 使 用 更 多 的 分 类 技术 。 

映射 数据 到 新 空间 ， 是 指使 用 一 种 完全 不 同 的 视角 挖掘 数据 可 能 揭示 重要 而 有 趣 的 特 
征 。 例 如 ， 对 时 间 序 列 实施 傅立叶 变换 ， 转 换 为 频率 信息 ， 可 能 检测 到 其 中 的 周期 模式 。 

当 原 始 数据 集 的 属性 含有 必要 信息 ， 但 其 形式 不 适合 数据 挖掘 算法 的 时 候 ， 可 以 使 用 
属性 构造 ， 将 一 个 或 多 个 原来 的 属性 构造 出 新 的 属性 。 

6) 离散 化 和 二 元 化 

有 的 数据 挖掘 算法 ， 尤 其 是 某 些 分 类 算法 ， 要 求 数据 是 分 类 属性 的 形式 。 发 现 关联 模 
式 的 算法 要 求 数据 是 二 元 属性 的 形式 。 因 此 ， 需 要 进行 属性 变换 ， 将 连续 属性 转换 为 分 类 
属性 称 为 离散 化 (Discretization)， 将 连续 和 离散 属性 转换 为 一 个 或 多 个 二 元 属性 称 为 二 元 化 
(Binarization)。 

连续 属性 离散 化 为 分 类 属性 分 为 两 个 子 任务 : 决定 需要 多 少 个 分 类 值 ， 以 及 如 何 确定 
将 连续 属性 值 映 射 到 这 些 分 类 值 中 。 因 此 ， 离 散 化 问题 就 是 决定 选择 多 少 个 分 割 点 ， 以 及 
确定 分 割 点 的 位 置 。 利 用 少数 分 类 值 标签 蔡 换 连 续 属性 的 值 ， 从 而 减少 和 简化 原来 的 数据 。 

根据 是 否 使 用 类 别 信息 ， 可 以 将 离散 化 技术 分 为 两 类 : 使 用 类 别 信息 的 称 为 有 监督 的 
离散 化 ， 反 之 则 称 为 无 监督 的 离散 化 。 

等 宽 和 等 频 离 散 化 是 两 种 常用 的 无 监督 的 离散 化 方法 。 等 宽 (Equal Widthb) 离 散 化 将 属 
性 的 值 域 划分 为 相同 宽度 的 区 间 ， 区 间 的 数目 由 用 户 指定 。 这 种 方式 常常 会 造成 实例 分 布 
不 均匀 。 等 频 (Equal Frequency) 离 散 化 也 称 为 等 深 (Equal Depth) 离 散 化 ， 它 试图 将 相同 数量 
的 对 象 放 进 每 个 区 间 ， 区 间 的 数目 由 用 户 指定 。 

7) 变量 变换 

变量 变换 (Variable Transformation) 也 称 为 属性 变换 ， 是 指 用 于 变量 的 所 有 值 的 变换 。 
下 面 讨论 两 种 重要 的 变量 变换 : 简单 函数 变换 和 规范 化 。 

简单 函数 变换 是 使 用 一 个 简单 数学 函数 分 别 作用 于 每 一 个 值 。 在 统计 学 中 ， 使 用 平方 
根 、 对 数 变换 和 倒数 变换 等 变量 变换 常用 于 将 不 具有 高 斯 分 布 的 数据 变换 为 具有 高 斯 分 布 
的 数据 。 

变量 的 标准 化 (Standardization) 是 使 整个 值 的 集合 具有 特定 的 性 质 。 例 如 ， 假 如 Xx 是 某 
个 属性 的 均值 ，Sy 是 其 标准 差 ， 则 变换 公式 x'= (x 一)/s, 创建 一 个 具有 均值 0 和 标准 
差 1 的 新 的 变量 。 由 于 均值 和 标准 差 受 离 群 点 的 影响 较 大 ， 因 此 ， 常 常 修正 上 述 变换 。 例 
如 ， 用 中 位 数 (Median) 替 代 均 值 ， 用 绝对 标准 差 蔡 代 标准 差 ， 等 等 。 
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1.2.5 分 类 与 回归 


分 类 (Classification) 与 回归 (Regression) 是 数据 挖掘 应 用 领域 的 重要 技术 。 分 类 就 是 在 已 
有 数据 的 基础 上 学 习 出 一 个 分 类 函数 或 构造 出 一 个 分 类 模型 ， 这 就 是 通常 所 说 的 分 类 器 
(Classifien 。 该 函数 或 模型 能 够 把 数据 集中 的 数据 映射 到 某 个 给 定 的 类 别 ， 从 而 用 于 数据 
预测 。 分 类 和 回归 是 预测 的 两 种 形式 ， 分 类 预测 输出 目标 是 离散 值 ， 而 回归 预测 输出 目标 
是 连续 值 。 因 此 ， 在 Weka 中 ， 分 类 和 回归 都 归 为 同一 类 的 问题 ， 都 是 要 构建 能 对 目标 进 
行 预测 的 分 类 器 。 

在 分 类 之 前 ， 先 要 将 数据 集 划 分 为 训练 集 和 测试 集 两 个 部 分 。 分 类 分 两 步 ， 第 一 步 分 
析 训 练 集 的 特点 并 构建 分 类 模型 ， 常 用 的 分 类 模型 有 决策 树 、 贝 叶 斯 分 类 器 、k- 最 近邻 分 
类 等 ;第 二 步 使 用 构建 好 的 分 类 模型 对 测试 集 进行 分 类 ， 评 估 分 类 模型 的 分 类 准确 度 等 指 
标 ， 选 择 满 意 的 分 类 模型 。 

分 类 模型 学 习 方 法 主要 分 为 以 下 几 类 。 

1) 决策 树 分 类 

决策 树 分 类 方法 对 训练 集 进行 训练 ， 生 成 一 棵 二 叉 或 多 叉 的 决策 树 。 决 策 树 包 含 三 种 
节点 ， 根 节点 没有 入 边 ， 但 有 零 条 或 多 条 出 边 ; 内 部 节点 只 有 一 条 入 边 和 两 条 或 多 条 出 
边 ， 叶 节点 只 有 一 条 入 边 ， 但 没有 出 边 。 树 的 叶 节 点 代表 某 一 个 类 别 值 ， 非 叶 节 点 代表 某 
个 一 般 属性 ( 非 类 别 属性 ) 的 一 个 测试 ， 测 试 的 输出 构成 该 非 叶子 节点 的 多 个 分 支 。 从 根 节 
点 到 叶 节点 的 一 条 路 径 形 成 一 条 分 类 规则 ， 一 棵 决策 树 能 够 方便 地 转化 为 若干 分 类 规则 ， 
挖掘 者 可 以 根据 分 类 规则 直观 地 对 未 知 类 别 的 样本 进行 预测 。 有 具体 方法 是 ， 从 树 的 根 节 点 
开始 ， 将 测试 条 件 用 于 检验 样本 ， 根 据 测试 结果 选择 适当 的 分 支 ， 沿 着 该 分 支 要 么 到 达 另 
一 个 内 部 节点 ， 再 次 使 用 新 的 测试 规则 ;要 么 到 达 叶 节点 ， 结 果 是 将 叶 节点 的 类 别 标号 赋 
值 给 检验 样本 。 

决策 树 归纳 的 学 习 算 法 必须 解决 以 下 两 个 问题 。 

第 一 ， 如 何 分 裂 训 练 样本 集 ? 树 在 增长 过 程 中 的 每 个 递归 步 必 须 选择 一 个 属性 作为 测 
试 条 件 ， 将 样本 集 划 分 为 更 小 的 子 集 。 为 了 实现 该 步 ， 算 法 必须 提供 为 不 同类 型 的 属性 指 
定 测试 条 件 的 方法 ， 并 且 提 供 评估 每 种 测试 条 件 的 客观 度量 。 

第 二 ， 如 何 停止 分 裂 过 程 ? 需要 有 终止 决策 树 生 长 过 程 的 结束 条 件 。 可 能 的 策略 是 一 
直 分 裂 ， 直 到 所 有 的 样本 都 属于 同一 个 类 别 ， 或 者 所 有 样本 的 属性 值 都 相同 。 也 可 以 使 用 
其 他 策略 提前 终止 树 的 生长 过 程 。 

不 同 决策 树 采用 的 技术 不 同 ， 已 经 有 很 多 成 熟 而 有 效 的 决策 树 学 习 算 法 ， 如 ID3、 
C4.5、CART、Random Forest 等 。 具 体 算法 详 见 后 文 。 

2) 贝 叶 斯 分 类 

贝 叶 斯 分 类 方法 有 一 个 明确 的 基本 概率 模型 ， 用 以 给 出 某 个 样本 属于 某 个 类 别 标签 的 
概率 。 贝 叶 斯 分 类 方法 有 两 种 主要 实现 : 朴素 贝 叶 斯 分 类 器 和 贝 叶 斯 网 络 。 朴 素 贝 叶 斯 分 
类 器 是 基于 贝 叶 斯 定理 的 统计 分 类 方法 ， 它 假定 属性 之 间 相 互 独立 ， 但 实际 数据 集中 很 难 
保证 这 一 条 件 。 朴 素 贝 叶 斯 分 类 器 分 类 速度 快 且 分 类 准确 度 高 ， 支 持 增 量 学 习 。 贝 叶 斯 网 
络 使 用 贝 叶 斯 网 络 描述 属性 之 间 的 依赖 关系 ，Weka 对 贝 叶 斯 网 络 有 很 好 的 支持 ， 详 见 
后 文 。 


3) k- 最 近邻 分 类 

前 面 所 介绍 的 决策 树 分 类 器 是 一 种 积极 学 习 器 (Eager Leamer)， 因 为 只 要 训练 数据 可 
用 ， 就 开始 学 习 从 输入 属性 到 类 别 标签 的 映射 模型 。 另 一 种 策略 则 是 推迟 对 训练 模型 的 建 
模 ， 直 到 需要 分 类 测试 样本 时 再 进行 ， 这 种 策略 称 为 消极 学 习 器 (Lazy Leamer)。k- 最 近邻 
分 类 算法 是 使 用 后 一 种 策略 ， 它 是 一 种 基于 实例 的 学 习 算法 ， 不 需要 事先 使 用 训练 样本 构 
建 分 类 器 ， 而 是 直接 使 用 训练 集 对 测试 样本 进行 分 类 ， 以 确定 类 别 标签 。 

k- 最 近邻 分 类 使 用 具体 的 训练 实例 进行 预测 ， 不 必 维 护 从 数据 集中 抽象 出 来 的 模型 。 
这 种 基于 实例 的 学 习 算 法 需要 邻近 性 度量 来 确定 实例 间 的 相似 度 或 距离 ， 还 需要 分 类 函数 
根据 测试 实例 与 其 他 实例 的 邻近 性 返回 测试 实例 的 预测 类 别 标签 。 虽 然 消 极 学 习 方 法 不 需 
要 建立 模型 ， 然 而 ， 对 测试 实例 进行 分 类 的 开销 很 大 ， 因 为 需要 逐个 计算 测试 样本 和 训 
练 样本 之 间 的 相似 度 。 相 反 ， 积 极 学 习 方法 通常 花费 大 量 的 计算 资源 来 建立 模型 ， 但 一 旦 
建立 模型 之 后 ， 对 测试 实例 进行 分 类 就 会 非常 快 。 最 近邻 分 类 器 基于 局 部 信息 进行 预测 ， 
而 决策 树 分 类 器 则 试图 找到 一 个 适合 整个 输入 空间 的 全 局 模型 。 由 于 基于 局 部 分 类 策略 ， 
k- 最 近邻 分 类 在 k 很 小 的 时 候 对 噪声 非常 敏感 。 

Weka 实现 的 k- 最 近邻 分 类 算法 称 为 IBk， 可 以 通过 交叉 验证 选择 适当 的 K 值 ， 还 可 
以 距离 加 权 。 

4) 神经 网 络 分 类 

神经 网 络 (Neural Network) 是 大 量 的 简单 神经 元 按 一 定 规则 连接 构成 的 网 络 系统 ， 能 够 
模拟 人 类 大 脑 的 结构 和 功能 。 它 采用 某 种 学 习 算 法 从 训练 样本 中 学 习 ， 将 获取 的 知识 存储 
在 网 络 模型 的 权 值 中 ， 模 拟人 类 大 脑 通过 同一 个 脉冲 反复 刺激 下 改变 神经 元 之 间 的 神经 键 
连接 强度 来 进行 学 习 。 

按照 各 神经 元 的 不 同 连接 方式 ， 神 经 网 络 分 为 前 向 网 络 和 反馈 网 络 。 目 前 的 神经 网 络 
模型 非常 丰富 ， 典 型 的 模型 有 感知 器 模型 、 多 层 前 向 传播 模型 、BP 模型 、Hopfield 网 络 、 
SOM 自 组 织 网 络 ， 等 等 。 

Weka 神经 网 络 使 用 多 层 感知 器 实现 了 BP 神经 网 络 ， 详 见 第 6 章 。 


1.2.6 聚 类 分 析 


聚 类 (Clustering) 就 是 将 数据 集 划分 为 由 若干 相似 实例 组 成 的 簇 (cluster) 的 过 程 ， 使 得 同 
一 个 徐 中 实例 间 的 相似 度 最 大 化 ， 不 同 簇 的 实例 间 的 相似 度 最 小 化 。 也 就 是 说 ， 一 个 簇 就 
是 由 彼此 相似 的 一 组 对 象 所 构成 的 集合 ， 不 同 簇 中 的 实例 通常 不 相似 或 相似 度 很 低 。 

聚 类 分 析 是 数据 挖掘 和 机 器 学 习 中 十 分 重要 的 技术 ， 应 用 领域 极为 广泛 ， 如 统计 学 、 
模式 识别 、 生 物 学 、 空 间 数据 库 技 术 、 电 子 商 务 等 。 

作为 一 种 重要 的 数据 挖掘 技术 ， 聚 类 是 一 种 无 监督 的 机 器 学 习 方法 ， 主 要 依据 样本 间 
相似 性 的 度量 标准 将 数据 集 自动 划分 为 几 个 徐 ， 聚 类 中 的 簇 不 是 预先 定义 的 ， 而 是 根据 实 
际 数据 的 特征 按照 数据 之 间 的 相似 性 来 定义 的 。 聚 类 分 析 算 法 的 输入 是 一 组 样本 以 及 一 个 
度量 样本 间 的 相似 度 的 标准 ， 输 出 是 簇 的 集合 。 聚 类 分 析 的 另 一 个 副产品 是 对 每 个 艇 的 综 
合 描述 ， 这 个 结果 对 于 进一步 深入 分 析 数 据 集 的 特性 尤为 重要 。 聚 类 方法 适合 用 于 讨论 样 
本 间 的 相互 关联 ， 从 而 能 初步 评价 其 样本 结构 。 

数据 挖掘 关心 聚 类 算法 的 如 下 特性 : 处理 不 同类 型 属性 的 能 力 、 对 大 型 数据 集 的 可 扩 
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展 性 、 处 理 高 维 数据 的 能 力 、 发 现任 意 形状 簇 的 能 力 、 处 理 孤 立 点 或 “噪声 ”数据 的 能 
力 、 对 数据 顺序 的 不 敏感 性 、 对 先 验 知识 和 用 户 自 定义 参数 的 依赖 性 、 聚 类 结果 的 可 解释 
性 和 实用 性 、 基 于 约束 的 聚 类 等 。 

聚 类 分 析 方 法 主要 有 : 划分 的 方法 、 层 次 的 方法 、 基 于 密度 的 方法 、 基 于 网 格 的 方 
法 、 基 于 模型 的 方法 等 。Weka 实现 的 聚 类 算法 主要 有 : K 均值 算法 、EM 算法 和 
DBSCAN 。 


1.2.7 关联 分 析 


商业 企业 在 日 复 一 日 的 运营 中 积累 了 大 量 的 数据 。 例 如 ， 超 市 的 收银 台 每 天 都 要 记录 
大 量 的 顾客 购物 数据 ， 这 种 数据 通常 称 为 购物 篮 事 务 。 商 家 对 分 析 这 些 数据 很 感 兴趣 ， 
为 分 析 它 可 以 了 解 顾客 的 购买 行为 ， 关 联 分 析 (Association Analysis) 方 法 就 是 用 于 发 现 隐 藏 
在 大 型 数据 集中 有 意义 的 联系 ， 这 种 联系 可 以 用 关联 规则 (Association Rule) 进 行 表示 。 例 
如 ， 商 家 通过 关联 分 析 控 掘 商场 销售 数据 ， 发 现 顾客 的 购买 习惯 ， 例 如 ， 购 买 产品 X 的 同 
时 也 购买 产品 Y， 于 是 ， 超 市 就 可 以 调整 货架 的 布局 ， 比 如 将 义 产 品 和 YY 产品 放 在 一 起 ， 
增进 销量 。 因 此 ， 关 联 分 析 为 商场 进行 商品 促销 以 及 货架 摆 放 提供 了 辅助 决策 信息 。 

例如 ， 沃 尔 玛 从 销售 数据 中 发 现 这 样 一 个 令 人 菲 夷 所 思 的 规则 : 

{尿布 } 一 一 ) {啤酒 } 

该 规则 表明 尿布 和 啤酒 的 销售 之 间 存 在 着 很 强 的 联系 。 原 来 ， 美 国 妇女 通常 在 家 照顾 
孩子 ， 所 以 她 们 会 经 常 嘱 哈 丈夫 在 下 班 回 家 的 路 上 为 孩子 买 尿布 ， 而 丈夫 在 买 尿布 的 同时 
又 会 顺手 购买 自己 爱 喝 的 啤酒 。 得 益 于 所 发 现 的 新 的 交叉 销售 商机 ， 将 “啤酒 ”和 “ 尿 
布 ”这 两 个 看 上 去 毫 无 关联 的 商品 摆 放 在 一 起 销售 ， 获 得 了 很 好 的 销售 收益 。 

除 购物 篮 数据 外 ， 关 联 分 析 还 可 以 应 用 于 其 他 领域 ， 如 生物 信息 学 、 医 疗 诊断 、 网 页 
挖掘 和 科学 数据 分 析 等 。 例 如 ， 通 过 关联 分 析 挖 掘 医疗 诊断 数据 ， 可 以 发 现 症状 与 疾病 之 
间 的 关联 ， 为 医生 诊断 疾病 和 治疗 提供 线索 。 

关联 分 析 最 著名 的 算法 是 Apriori 算法 ， 其 核心 是 基于 两 阶段 频繁 项 集 思 想 的 递 推 算 
法 。 寻 找 最 大 项 集 ( 频 繁 项 集 ) 的 基本 思想 是 : 算法 需要 对 数据 集 进 行 多 步 处 理 。 第 一 步 ， 
简单 统计 所 有 含 一 个 元 素 项 集 出 现 的 频数 ， 并 找 出 那些 不 小 于 最 小 支持 度 的 项 集 ， 即 一 维 
最 大 项 集 。 从 第 二 步 开 始 循环 处 理 直 到 再 没有 最 大 项 集 生成 。 循 环 过 程 是 : 第 步 中 ， 根 
据 第 三 1 步 生 成 的 (£-1) 维 最 大 项 集 产生 大 维 候选 项 集 ， 然 后 对 数据 库 进 行 搜索 ， 得 到 候选 
项 集 的 支持 度 ， 与 最 小 支持 度 进 行 比较 ， 从 而 找到 大 维 最 大 项 集 。 

Weka 实现 了 Apriori 算法 和 男 一 个 关联 分 析 的 FP-Growth 算法 。 


1.3 ”Weka 系统 安装 


本 节 介 绍 Weka 系统 的 安装 。 由 于 Weka 采用 Java 编写 ， 因 此 ， 具 有 Java“ 一 次 编 
译 ， 到 处 运行 ”的 特性 。 支 持 的 操作 系统 有 Windows x86、Windows x64、Mac OS X、 
Linux 等 。 


1.3.1 系统 要 求 
表 1.1 列举 了 运行 Weka 的 特定 版 本 对 Java 版 本 的 要 求 。 
表 1.1 Weka 各 版 本 对 Java 版 本 的 要 求 2 


Java 
1.4 1.6 
<3.4.0 XxX 天 
3.4.x XxX XxX 
EE 3.5.0~3.5.2 3 
Weka 四 本 一 IT2892. 20/02/2006 
3.6.X xX 
>3.7.0 
3 
r5678, 25/06/2009 


表 1.1 有 两 处 还 注 明 了 因 版 本 变更 对 Java 版 本 要 求 的 变化 ， 采 用 前 级 r 加 数字 表示 
Subversion 修订 版 本 ， 并 列 出 变更 时 间 。 

Linux/Gnome 系统 中 ， 使 用 Java 5.0 及 以 上 版 本 会 遇 到 界面 的 缺 省 外 观 显 示 问 题 。Mac 
OS 和 X 用 户 使 用 Weka 3.6.5/3.7.4 版 本 需要 安装 Java for Mac OS X 10.6 Update 3 及 以 上 
版 本 。 
1.3.2 ”安装 过 程 

下 面 介绍 Weka 3.7.8 在 Windows 7 旗舰 版 上 的 下 载 及 安装 过 程 。 

1. 下 载 

虽然 从 SourceForge.net 网 站 也 可 以 下 载 ， 但 从 Weka 官网 下 载 会 更 为 方便 ， 更 为 重要 
的 是 Weka 官网 还 有 很 多 相关 资源 ， 供 下 载 的 软件 版 本 也 更 为 齐全 。 在 浏览 器 地 址 栏 中 输 
入 “http:/www.cs.waikato.ac.nz/~ml/weka/ ”， 并 按 Enter 键 ， 在 主页 的 导航 栏 单 击 
Download 超 链 接 ， 根 据 自己 的 计算 机 所 安装 的 操作 系统 选择 下 载 文件 。 

要 注意 的 是 ，Weka 主要 版 本 有 三 种 ， 第 一 种 称 为 Snapshots( 快 照 版 本 )， 是 开发 过 程 
中 构建 的 版 本 ， 并 不 是 正式 版 ， 这 是 为 想 要 最 新 的 错误 修正 版 的 用 户 设置 的 ， 第 二 种 称 为 
Stable book 3rd ed. version( 第 3 版 书 的 稳定 版 本 )， 是 Ian Witten 的 第 3 版 著作 对 应 的 Weka 
实现 的 稳定 版 本 ， 版 本 为 3.6.x; 第 三 种 称 为 Developer version( 开 发 者 版 本 )， 目 前 版 本 为 
3.7x， 这 是 Weka 的 主干 版 本 ， 是 稳定 3.6 版 本 代码 的 延续 ， 进 行 了 错误 修复 并 新 增 了 一 
些 新 功能 ， 因 此 ， 它 是 学 习 和 研究 Weka 的 理想 版 本 ， 本 书 的 写作 就 基于 这 个 版 本 。 


@ 来 源 : http://www.cs.waikato.ac.nz/~ml/weka/ 
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由 于 作者 使 用 的 操作 系统 为 Windows 7 旗舰 版 ， 并 且 已 经 安装 过 Java 7， 因 此 ， 选 择 


下 载 weka-3-7-8.exe， 如 图 1.3 所 示 。 


1.3 选择 下 载 的 文件 
双击 下 载 后 的 .exe 文件 并 进行 安装 。 
2. 安装 
首先 出 现 的 是 欢迎 窗口 ， 如 图 1.4 所 示 ， 单 击 Next 按钮 进入 下 一 步 。 
随后 出 现 的 是 GNU GPL 协议 ， 必 须 同 意 才 能 进行 安装 。 单 击 I Agree 按钮 
所 示 。 


‘Welcome to the Weka 3.7.8 Setup 
Wizard 


， 如 图 1.5 
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图 1.4 欢迎 窗口 图 1.5 同意 GNU GPL 协议 


下 一 步 是 选择 安装 组 件 。 选 项 有 Full、Minimal、custom 三 项 ， 默 认为 Full， 
安装 也 不 占 多 大 空间 ， 建 议 选择 默认 的 Full 选项 。 因 此 保持 默认 选项 不 动 ， 单 
钮 进入 下 一 步 ， 如 图 1.6 所 示 。 

下 面 一 步 是 选择 安装 路 径 。 根 据 自己 计算 机 的 硬盘 空间 进行 选择 ， 建 议 安装 
Weka-3-7 目录 下 ， 选 择 完成 后 ， 单 击 Next 按钮 进入 下 一 步 ， 如 图 1.7 所 示 。 


由 于 完全 
6 Next 按 


在 C 盘 的 


接 下 来 是 选择 开始 菜单 文件 夹 名 称 ， 这 里 是 Weka 3.7.8， 没 有 特殊 要 求 则 不 必 更 改 ， 


单 击 Install 按钮 开始 安装 ， 如 图 1.8 所 示 。 


安装 完成 后 ， 最 好 花 上 一 点 时 间 看 看 已 安装 的 文件 。 如 图 1.9 所 示 ，Weka-3-7 目录 下 
有 三 个 子 目录 ，changelogs 子 目 录用 于 存放 Weka 版 本 的 变更 情况 ， 除 非 想 参与 到 Weka 项 
目的 开发 ， 或 者 想 知道 Weka 的 某 版 本 在 上 一 个 版 本 的 基础 上 究竟 变更 了 哪些 内 容 ， 才 需 
要 进行 研究 ，data 子 目录 存放 自 带 的 23 个 ARFF 文件 作为 测试 用 途 的 示例 数据 集 ， 详 见 后 


文 ; doc 子 目录 存放 Weka 文档 ， 进 行 二 次 开发 的 技术 人 员 需 要 仔细 阅读 。 


ep 
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1.7 选择 安装 路 径 


Select te Stat Men folder whch you woud ke to aeate the programis shertcuts You 
on so enter name to reate a new older 


图 1.9 安装 在 硬盘 上 的 文件 


安装 目录 下 还 有 几 个 文件 值得 关注 。WekaManual pdf 是 Weka 用 户 手 册 ， 不 论 新 手 还 
是 老 资 格 用 户 ， 该 手册 的 帮助 都 会 很 大 ，weka-srcjar 是 打包 源 程序 ， 可 以 解压 出 来 供 深层 
次 的 用 户 使 用 ，RunWeka.ini 是 运行 Weka 的 配置 文件 。 


1.3.3 ”Weka 使 用 初步 
Weka 安装 完成 后 ， 在 Windows 左下 角 的 开始 菜单 中 ， 可 以 找到 Weka 3.7.8 子 菜单 ， 
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下 面 有 四 个 菜单 项 ， 如 图 1.10 所 示 。 


点 Weka 37.8 


单 击 第 一 个 菜单 项 一 一 Documentation( 参 考 资料 )， 可 以 
浏览 Weka 提供 的 非常 有 用 的 参考 资料 ， 包 括 Weka 手册 、 
Java 包 API 文档 ， 还 有 一 些 在 线 资 源 ， 如 Weka 主页 、 
Weka 维基 、Pentaho 的 Weka 社区 文档 ， 以 及 SourceForge 


口 Documentation 

@ Uninstall Weka 37.8 

© Weka 3.7.8 (with console) 
© weka 378 


图 1.10 Weka 菜单 


网 站 下 的 Weka， 如 图 1.11 所 示 。 


总和 到 0 本 家 “ 


ey/ v "| 加 


WEKA - Documentation 


cha Men 
Online resources 


ea Homepage 
Wela wils (HOWTOs, code snippets. et) 
Wka on gowncsEorge net 


OP” a ET 


第 二 个 菜单 项 是 卸载 Weka。 


1.11 Weka 参考 资料 


第 三 和 第 四 个 菜单 项 均 可 以 启动 Weka 界面 ， 不 同 的 是 前 者 带 有 一 个 控制 台 输 出 ， 而 
后 者 没有 。 不 管 使 用 哪 种 方式 启动 Weka 后 ， 主 界面 显示 为 一 个 称 作 Weka GUI 选择 器 的 
窗口 ， 如 前 文 的 图 1.2 所 示 。 这 里 主要 介绍 Weka 的 菜单 。 

Weka 使 用 的 MDI( 多 文档 界面 ) 外 观 ， 让 所 有 打开 的 窗口 更 加 简洁 明了 。Weka 菜单 分 


为 以 下 四 个 部 分 。 
1. Program( 编 排 ) 菜 单 


e LogWindow( 日 志 窗 口 ) 菜 单项 : 打开 一 个 记录 输出 到 stdout 或 stderr 内 容 的 日 志 
窗口 。 在 Windows 环境 下 ， 如 果 不 带 控制 台 输 出 启动 Weka， 日 志 窗 口 比较 有 用 。 
e@ ”Memory Usage( 内 存 使 用 情况 ) 菜 单项 : 打开 一 个 显示 内 存 使 用 情况 的 窗口 ， 如 果 用 
户 发 现 内 存 占 用 过 大 ， 可 单 击 窗口 右边 的 GC 按钮 ， 启 动 垃圾 回收 器 ， 如 图 1.12 


所 示 。 


1.12 ”内 存 使 用 情况 


。 ”Exit( 退 出 ) 菜 单项 ， 关 闭 Weka。 
2. Visualization( 可 视 化 ) 菜 单 


Plot( 散 点 图 ) 菜 单项 : 画 出 数据 集 的 二 维 散 点 图 。 
ROC( 接 收 者 操作 特征 ) 菜 单项 : 显示 预先 保存 的 ROC 曲线 。 
TreeVisualizer( 树 可 视 化 工具 ) 菜 单项 : 显示 一 个 有 向 图 例如， 决策 树 。 


e ”GraphVisualizer( 图 可 视 化 工具 ) 菜 单项 : 显示 XML、BIF 或 DOT 格式 的 图 片 ， 
例如 ， 贝 叶 斯 网 络 。 
ee ”BoundaryVisualizer( 边 界 可 视 化 工具 ) 菜 单项 : 允许 在 二 维 空间 中 对 分 类 器 的 决策 
边界 进行 可 视 化 。 
3. Tools( 工 具 ) 菜 单 


@ ”Package manager( 包 管理 器 ) 菜 单项 : 允许 用 户 选择 安装 感 兴趣 或 需要 的 软件 包 。 
ArffViewer(ARFF 查看 器 ) 菜 单项 : 一 个 MDI 应 用 程序 ， 使 用 电子 表格 的 形式 来 
查看 ARFF 文件 。 

e ”SqlViewer(SQL 查看 器 ) 菜 单项 : 通过 JDBC 查询 数据 库 的 简单 窗口 ， 支 持 连 接 数 
据 库 ， 执 行 SQL 语句 ， a 

e ”Bayes net editor( 贝 叶 斯 网 络 编辑 器 ) 菜 单项 : 一 个 编辑 、 可 视 化 和 学 习 贝 叶 斯 网 络 
的 应 用 程序 。 


. Help( 帮 助 ) 菜 单 


Weka homepage(Weka 主页 ) 菜 单项 : 打开 一 个 浏览 器 窗口 ， 显 示 Weka 主页 。 
HOWTOs，code snippets，etc. (基本 知识 、 代 码 段 等 ) 菜 单项 : 常用 的 WekaWiki， 
含有 大 量 的 示例 ， 以 及 开发 和 使 用 Weka 的 基本 知识 (HOWTO)。 

e@ Weka on Sourceforge(Sourceforge 网 站 的 Weka) 菜 单项 : Weka 项 目 在 
Sourceforge.net 网 站 上 的 主页 。 

e SystemInfo( 系 统 信息 ) 菜 单项 : 列 出 一 些 关 于 Java/Weka 的 环境 信息 ， 如 
WEKA HOME、file.encoding 等 。 


1. 使 用 Weka 包 管 理 器 


通常 术语 “ 包 ”(package) 指 的 是 Java 通过 包 来 组 织 Java 类 。 自 Weka 3.7.2 开始 ， 
Weka 引入 包 的 概念 ， 它 将 额外 功能 从 weka.jar 文件 中 分 离 ， 以 软件 包 的 形式 单独 提供 。 
Weka 包 由 各 种 jar 文件 、 文 档 、 元 数据 ， 以 及 可 能 的 源 代码 组 成 。 从 版 本 3.7.2 开始 ， 早 
期 版 本 Weka 中 的 许多 学 习 算 法 和 工具 就 成 为 单独 的 包 。 这 样 做 的 最 大 好 处 就 是 简化 了 
Weka 的 核心 系统 ， 允 许 用 户 选 择 安装 自己 需要 或 者 感 兴趣 的 软件 包 。 它 还 提供 了 一 种 简 
单机 制 ， 用 户 能 够 及 时 使 用 到 Weka 爱好 者 提供 的 新 功能 。Weka 可 以 使 用 很 多 包 ， 这 些 
包 以 某 种 方式 添加 学 习 方 案 ， 或 扩展 核心 系统 的 功能 ， 很 多 包 都 由 Weka 团队 和 第 三 方 
提供 。 

Weka 自 带 软件 包 的 管理 机 制 ， 能 在 运行 时 动态 加 载 包 。 软 件 包 管理 器 分 为 命令 行 和 
图 形 用 户 界 面 两 种 ， 下 面 分 别 予 以 说 明 。 

假定 wekajar 文件 在 classpath 路 径 中 ， 使 用 如 下 命令 即 可 访问 包 管 


java weka.core.WekaPackageManager 


运行 结果 如 图 1.13 所 示 。 详 细 的 命令 行 包 管理 器 的 使 用 将 在 第 5 章 讲述 。 
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1.13 ”命令 行 包 管理 器 
可 以 看 到 ， 除 非 是 程序 员 ， 使 用 命令 行 包 管理 器 非常 麻烦 ， 要 求 输入 若干 命令 行 
项 。 因 此 ， 普 通 人 员 还 是 使 用 图 形 化 用 户 界面 进行 包 管理 较为 直观 方便 。 
首先 启动 GUI Chooser 窗口 ， 在 Tools 菜单 下 ， 选 择 Package manager 菜单 项 ， 或 者 
CtrltU 快捷 键 ， 则 弹出 如 图 1.14 所 示 的 包 管理 器 窗口 。 在 命令 行 包 管理 系统 的 全 部 功能 
可 以 在 GUI 版 本 中 使 用 ，GUI 版 本 还 能 够 一 键 安 装 和 外 载 多 个 包 。 


图 1.14 包 管 理 器 窗口 


包 管 理 器 窗口 沿 水 平方 向 分 为 上 、 下 两 部 分 : 顶部 是 一 个 软件 包 的 列表 ， 底 部 是 一 
小 型 的 浏览 器 ， 用 于 显示 当前 选择 的 包 信 息 。 

包 列 表 显 示 了 包 的 名 称 (Package)、 类 别 (Category)、 如 已 安装 则 显示 目前 安装 的 版 
(Installed version)、 存 储 库 中 可 用 的 最 新 版 本 (Repository version)， 以 及 包 是 否 已 经 加 
(Loaded)。 可 以 通过 单 击 此 列表 相应 的 列 标题 ， 按 照 包 名 称 或 类 别 进 行 排序 。 第 二 次 单 
相同 标题 会 反 转 排列 顺序 。 在 窗口 左上 角 ， 有 三 个 单 选 按钮 可 以 用 来 过 滤 列表 中 显示 的 
容 ， 默 认 选 中 单 选 按钮 All( 所 有 软件 包 )， 单 选 按钮 Available 用 于 显示 所 有 可 用 的 尚未 
装 软件 包 ， 单 选 按钮 Installed 用 于 显示 已 安装 的 软件 包 。 

如 果 某 一 种 软件 包 有 多 个 版 本 可 用 ， 可 以 选择 对 应 的 Repository version 列 来 选 
版 本 。 


窗口 顶部 有 三 个 按钮 ， 分 别 为 Refresh repository cache( 刷 新 库 缓 存 )、Install( 安 装 ) 和 
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Uninstall( 卸 载 )。 第 一 个 按钮 用 于 刷新 包 信息 库 中 的 元 数据 的 缓存 副本 。 注 意 到 第 一 次 使 


有 


程序 包 管理 器 ， 不 论 是 GUI 还 是 命令 行 ， 都 会 出 现 短暂 的 延迟 ， 这 是 因为 第 一 次 要 建立 初 


始 缓存 。 另 外 两 个 按钮 分 别 用 于 安装 和 外 载 包 ， 可 以 一 次 安装 或 删除 多 个 包 ， 可 以 使 用 
“Shift 键 + 鼠标 单 击 ” 组 合 选择 范围 ， 也 可 以 使 用 “Ctrl 键 + 单 击 ” 依 次 添加 到 选择 集合 
中 。 在 安装 和 钊 载 按钮 的 下 面 ， 有 一 个 Ignore dependencies/conflicts( 忽 略 依赖 关系 和 冲突 ) 
复 选 框 ， 选 中 该 复 选 框 可 以 忽略 所 选择 软件 包 的 依赖 关系 和 可 能 发 生 的 任何 冲突 。 如 果 在 
安装 软件 包 时 选中 该 复 选 框 ， 将 无 法 安装 存在 依赖 关系 的 软件 包 。 

下 面 以 wavelet( 小 波 ) 预 处 理 包 的 安装 和 御 载 为 实例 进行 说 明 。 

首先 安装 。 选 中 Al 单 选 按钮 ， 显 示 全 部 包 ， 选 中 wavelet 包 ， 如 图 1.15 所 示 。 
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URL: http://weka,.sourceforge.net 
Author: Peter Reutemann 
Maintainer: Weka team <wekallst{ [at])list.scms.walkato.ac.nz> 


A filter for wavelet transformation. 
For more information see: 


Wikipedia (2004), Discrete wavelet transform, 
dar Iica 到 | 


图 1.15 选中 要 安装 的 包 


然后 ， 单 击 Install 按钮 进行 安装 。 这 时 ，Weka 会 弹出 一 个 窗口 请 用 户 确 认 ， 单 击 
“是 (Y)” 按 钮 确认 自己 的 操作 ， 在 窗口 右上 角 显示 安装 进度 ， 经 过 一 小 段 时 间 后 ， 所 选中 
的 wavelet 包 对 应 的 Loaded 列 也 会 显示 Yes 字样 ， 说 明 安 装 完成 。 

现在 卸载 wavelet 包 。 选 中 Installed 单 选 按钮 ， 显 示 已 安装 的 包 ， 选 中 wavelet 包 ， 这 
时 ，Uninstall 按钮 从 不 可 用 变 为 可 用 ， 如 图 1.16 所 示 。 
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单 击 Uninstall 按钮 ， 会 出 现 一 个 警告 窗口 ， 单 击 “ 是 (Y)” 按 钮 确认 自己 的 操作 ， 经 
小 段 时 间 后 ，Weka 提示 需要 重新 启动 以 便 更 改 生效 ， 单 击 “ 确 定 ” 按 钮 重启 Weka。 


对 一 

兹 注意 :有 时 候 ， 一 些 Weka 用 户 在 使 用 包 管理 器 时 会 遇 到 无 法 连接 问题 ， 所 报 的 错 
误 都 是 连接 超时 之 类 。 这 是 因为 包 所 在 的 Sourceforge 网 站 有 容量 限制 ， 该 网 
站 因 用户 众 多 不 堪 重 负 而 决定 对 一 些 对 象 的 请 求 数量 进行 限制 ， 因 此 有 时 无 
法 连接 。 解 决 办 法 是 ， 使 用 怀 卡 托 大 学 提供 的 包 的 元 数据 。 具 体 步骤 分 两 
步 ， 首 先 找到 wekafiles/props 目录 ， 在 目录 中 创建 一 个 名 称 为 
PackageRepository.props 的 文本 文件 ， 在 第 一 行 加 入 如 下 代码 : 


weka.core.wekaPackageRepositoryURL=http://www.cs.waikato.ac.nz/ml/ 
weka/packageMetaData 
然后 ， 重 新 启动 包 管理 器 ， 上 述 问题 得 以 解决 。 

2. 设置 CLASSPATH 


CLASSPATH 环境 变量 告知 Java 应 该 在 什么 地 方 去 查找 Java 类 。 因 为 Java 总 是 按照 
一 定 顺序 去 查找 CLASSPATH 环境 变量 里 的 类 路 径 ， 因 此 ， 用 户 应 该 认真 考虑 将 何 种 路 径 
放 到 CLASSPATH 的 什么 位 置 。 

下 面 以 Windows 操作 系统 下 添加 MySQL 驱动 程序 mysql-connector-java-5.1.6.jar 为 例 
进行 说 明 。 只 有 将 该 jar 文件 添加 到 CLASSPATH 环境 变量 中 ，Weka 才能 通过 JDBC 访问 
MySQL 数据 库 。 

在 Windows 控制 面板 下 ， 切 换 至 “高 级 ”标签 页 ， 然 后 查找 到 一 个 显示 “环境 变量 ” 
的 按钮 ， 单 击 该 按钮 ， 出 现 标题 栏 为 “环境 变量 ” 
的 窗口 。 根 据 计 算 机 是 仅 供 一 人 使 用 还 是 多 人 使 
用 ， 可 以 选择 将 环境 变量 设置 为 用 户 变量 还 是 系统 RD: CUT 
变量 。 如 果 不 知道 该 设置 为 哪 一 种 变量 ， 建 议 设置 0 
为 用 户 变量 。 如 果 已 经 存在 CLASSPATH 环境 变量 ， 一 上 一 一 
则 进行 编辑 ， 否则 ， 单 击 “ 新 建 ”按钮 进行 新 建 ， 图 1.17 设置 环境 变量 
按照 图 1.17 所 示 设 置 环境 输入 变量 名 和 变量 值 。 

如 果 用 户 的 jar 文件 名 称 或 路 径 与 本 书 不 同 ， 请 做 相应 修改 。 如 果 用 户 还 想 加 入 更 多 
的 jar 文件 ， 请 使 用 分 号 进行 分 割 。 

3. 使 用 UTF-8 数据 集 或 文件 

Java 本 来 就 支持 UTF-8 字符 集 ， 因 此 Weka 应 该 能 够 处 理 UTF-8 字符 集 的 数据 集 或 文 
件 ， 只 要 选择 合适 的 字符 集 就 可 以 。 在 Windows 下 ，Weka 默认 使 用 另 一 种 字符 集 一 一 
Cp1252， 可 以 通过 以 下 方式 将 文件 编码 (file encoding) 改 为 “utf-8”， 重 新 启动 就 能 支持 汉字 。 

如 果 直 接 在 命令 行 下 运行 Weka， 只 要 在 命令 行 添加 如 下 参数 就 行 : 

-Dfile.encoding=utf-8 

如 果 在 “开始 ”菜单 下 启动 Weka， 那 么 就 需要 修改 RonWEKA.ini 文件 ， 步 又 如 下 。 

步骤 1 在 Weka 安装 目录 下 ， 找 到 RunWEKA ini 文件 ， 用 任意 文本 编辑 器 打开 该 
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步骤 2 在 第 32 行 附近 ， 找 到 “fileEncoding=Cp1252” 的 行 ， 将 “Cp1252” 改 为 
“utf-8”， 注 意 不 要 有 引号 ; 如 果 没 有 找到 这 一 行 ， 那 么 ， 找 到 所 有 的 java/javaw 命令 ， 
在 这 些 命令 行 中 添加 “-Dfile.encoding=utf8” 参 数 。 

4. 常见 运行 错误 

1) OutOfMemoryException( 内 存 不 足 例外 ) 

大 多 数 Java 虚拟 机 只 分 配 一 定数 额 的 最 大 内 存 来 运行 Java 程序 ， 通 常 远 低 于 计算 机 
中 的 内 存 大 小 。 但 是 ， 可 以 通过 设置 适当 的 选项 ， 扩 展 虚 拟 内 存 。 例 如 ， 可 以 用 命令 : 

java -Xmx512m ... 


设置 最 大 Java 堆 的 大 小 为 512MB。 还 可 以 使 用 Xmx28g 将 其 设置 为 2GB， 这 样 就 足够 
使 用 。 当 然 ， 这 还 要 看 计算 机 的 配置 ， 设 置 过 大 的 内 存 会 影响 运行 性 能 。 

2) StackOverflowError( 栈 溢出 错误 ) 

这 是 由 于 设置 的 堆栈 过 小 造成 的 错误 。 尝 试 增加 虚拟 机 的 堆栈 ， 可 以 使 用 下 面 的 命令 
来 增加 堆栈 空间 : 


java -Xss512k ... 


该 命令 设置 Java 的 最 大 堆栈 大 小 为 512KB。 如 果 还 是 不 够 ， 请 慢 慢 增加 。 

3) training and test set are not compatible( 训 练 集 和 测试 集 不 兼容 ) 

Weka 假定 训练 集 和 测试 集 的 结构 应 该 完全 一 致 ， 这 意味 着 训练 集 和 测试 集 的 属性 不 
但 在 数量 上 相同 ， 而 且 在 类 型 上 也 应 该 完全 一 样 。 对 于 标 称 属性 ， 必 须 确 保 标签 的 数量 和 
顺序 是 完全 一 致 。 

使 用 已 经 训练 好 的 分 类 器 进行 预测 ， 不 需要 包括 任何 分 类 属性 的 信息 。 出 于 速度 的 原 
因 ，Weka 不 执行 任何 有 关 数 据 集结 构 的 检查 ， 既 没有 将 属性 名 称 从 训练 空间 映射 到 测试 
空间 ， 也 没有 映射 标签 。 在 内 部 ， 数 据 集 的 单行 表示 为 一 个 double 型 数组 。 对 于 数值 属 
性 ， 这 并 不 构成 问题 ， 但 对 于 其 他 类 型 的 属性 ， 如 标 称 属性 ，double 值 表示 可 用 标签 列表 
的 索引 。 标 签 的 不 同 顺序 会 导致 不 同 的 标签 却 采 用 相同 的 索引 表示 ， 这 样 ， 预 测 就 不 可 靠 。 

解决 办 法 是 使 用 批量 过 滤 (Batch filtering)。 如 果 第 二 个 数据 集 (通常 为 测试 集 ) 需 要 与 第 
一 个 数据 集 (通常 为 训练 集 ) 处 理 为 具有 相同 的 统计 数据 ， 那 么 就 使 用 批量 过 滤 。 

例如 ， 使 用 Standardize 过 滤器 分 别 对 两 个 数据 集 执行 标准 化 操作 ， 肯 定 会 创建 两 个 不 
同 的 标准 化 输出 文件 ， 因 为 如 果 数 据 集 不 同 ， 输 入 数据 就 不 同 ， 导 致 均值 和 标准 偏差 也 就 
不 同 。StringToWordVector 也 同样 会 产生 这 个 问题 ， 因 为 在 训练 集 和 测试 集中 单词 出 现 的 
次 数 不 同 ， 导 致 单 词 词典 也 相应 改变 ， 输 出 两 个 互 不 兼容 的 文件 。 

为 了 创建 兼容 的 训练 集 和 测试 集 ， 有 必要 使 用 批量 过 滤 。 启 用 批量 过 滤 ， 必 须 提 供 额 
外 的 命令 行 参数 -b。 此 外 ， 第 一 个 输入 /输出 对 (-i/-0) 初 始 化 过 滤器 的 统计 数据 ， 第 二 个 输 
入 /输出 对 (-t/-s) 根 据 这 些 统计 数据 进行 处 理 。 

例如 ， 如 下 的 Java 调用 启用 批量 过 滤 : 

java weka.filters.unsupervised.attribute.standardize \ 


地 \ 
-i train.arff \ 
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-oO train std.arff \ 
-r test.arff \ 
-5s test std.arff 


狂 注意 :上述 命令 是 适用 于 Linux/UNIX 的 bash， 反 儿 杠 表示 续 行 。 如 果 采 用 Windows 
或 SimpleCLI， 需 要 去 掉 反 斜 杠 符号 ， 并 在 一 行内 写 全 命令 。 


1.4 ”访问 数据 库 


虽然 Weka 数据 集 默认 可 以 保存 在 ARFF 格式 的 文件 中 ， 但 很 多 数据 挖掘 应 用 都 可 能 
要 求 直 接 访 问 数据 库 ， 对 数据 库 表 的 记录 进行 挖掘 ， 尤 其 是 在 数据 集 非常 大 的 情况 下 。 
Weka 使 用 JDBC 访问 数据 库 。 


1.4.1 配置 文件 


首先 做 三 项 准备 工作 : 第 一 ， 如 果 Weka 正在 运行 中 ， 记 得 先 关 闭 Weka; 第 二 ， 下 载 
数据 库 驱 动 。Weka 支持 大 部 分 常用 数据 库 ， 本 书 采用 的 数据 库 是 MySQL 5.5.15， 使 用 的 
JDBC 驱动 是 com.mysqljdbc.Driver， 因 此 本 书 下 载 mysql-connector-java-5.1.6jar 驱动 文 
件 ， 并 设置 CLASSPATH 环境 变量 指向 该 驱动 ， 这 使 得 Weka 能 找到 JDBC 驱动 ， 如 图 1.17 
所 示 设 置 环境 变量 ; 第 三 ， 启 动 数据 库 运行 ， 确 保 已 经 建立 名 称 为 weka 的 数据 库 ， 为 该 
库 建立 名 称 为 APP 的 用 户 ， 密 码 自 定 ， 并 为 APP 用 户 赋予 查询 权限 。 

要 正常 访问 数据 库 ， 根 据 计算 机 的 实际 情况 正确 修改 配置 文件 是 关键 。Weka 的 配置 
文件 名 称 为 DatabaseUtils.props， 位 于 weka.experiment 包 中 。 可 以 从 wekajar 或 weka- 
srcjar 归档 文件 获取 该 配置 文件 。 具 体 做 法 是 ， 使 用 解压 缩 工 具 将 归档 文件 解 开 ， 在 
weka/experiment 子 目 录 可 以 找到 DatabaseUtils.props 配置 文件 。 本 书 直 接 在 该 配置 文件 的 
基础 上 进行 修改 。 

为 了 方便 用 户 ，Weka 对 常用 数据 库 都 提供 对 应 配置 文件 ， 在 对 应 配置 文件 上 进行 修 
改 要 方便 得 多 。 例 如 : 

(1) DatabaseUtils.props.hsql: 适用 HSQLDB 数据 库 ; 

(2) DatabaseUtils.props.msaccess: 适用 MS Access 数据 库 ; 

(3) DatabaseUtils.props.mssqlserver: 适用 MS SQL Server 2000 数据 库 ; 

(4) DatabaseUtils.props.mssqlserver2005: 适用 MS SQL Server 2005 数据 库 ; 

(5) DatabaseUtils.props.mysql: 适用 MySQL 数据 库 ; 

(6) DatabaseUtils.props.odbc: 适用 ODBC/JDBC 桥 连接 的 数据 库 ; 

(7) DatabaseUtils.props.oracle: 适用 Oracle 10g 数据 库 ; 

(8) DatabaseUtils.props.postgresql: 适用 PostgreSQL 7.4 数据 库 ; 

(9) DatabaseUtils.props.sqlite3: 适用 sqlite 3.x 数据 库 。 


Ee 注意 : ”Weka 只 会 去 寻找 名 称 为 DatabaseUtils.props 的 配置 文件 ， 如 果 用 户 想 以 其 余 


配置 文件 中 的 一 个 (如 DatabaseUtils.props.mysql) 作 为 模板 ， 在 此 基础 上 进行 
修改 ， 一 定 记 住 要 先 改 名 。 


打开 配置 文件 ， 在 文件 中 找到 如 程序 清单 1.2 所 示 的 内 容 。 注 意 到 粗 体 字 的 两 行 ， 分 
别 指定 了 连接 数据 库 必 需 的 两 个 参数 一 jdbcDriver 和 jdbcURL。 


程序 清单 1.2 原 DatabaseUtils props 文件 内 容 


# The comma-separated list of jdbc drivers to use 

#jdbcDriver=RmiJdbc .RJDriver, jdbc.idbDriver 

#jdbcDriver=jdbc.idbDriver 

jadbcDriver=RmiJdbc .RJDriver, jdbc.idbDriver,org.gjt.mm.mysql .Driver,com.mckoi.J 
DBCDriver ,org.hsqldb.jdbcDriver 

#jdbcDriver=org.gjt.mm.mysql .Driver 


# The url to the experiment database 
#jdbcURI=jdbc:rmi://expserver/jdbc:idb=experiments.prp 
jdbcURL=jdbc: idb=experiments .prp 
#jdbcURI=jdbc:mysql://mysqlserver/username 


本 书 使 用 MySQL， 因 此 将 代码 清单 1.2 所 示 的 粗 体 字 两 行 分 别 修改 为 如 下 两 行 。 


jdbcDriver=com.mysql .jdbc.Driver 
jdbcURL=jdbc:mysql://localhost:3306/weka 


如 果 读 者 使 用 不 同 的 数据 库 ， 或 者 使 用 不 同 的 端口 号 ， 请 根据 具体 的 数据 库 配 置 ， 设 
置 这 两 个 参数 。 

完成 DatabaseUtils .props 文件 的 设置 后 ， 必 须 放 在 如 下 三 个 固定 位 置 之 一 ，Weka 才能 
找到 。 

(1) 当前 目录 。 直 接 放 在 Weka 3.7 的 安装 目录 中 。 

(2) 用 户 目录 中 。 如 果 使 用 Windows 的 用 户 不 知道 自己 的 用 户 目录 ， 可 以 在 命令 行 输 
入 如 下 命令 : 


echo $USERPROFILES 
就 可 以 得 到 用 户 目录 的 路 径 。Weka 3.7.2 以 下 的 版 本 直接 将 配置 文件 放 在 用 户 目录 
中 ， 而 Weka 3.7.2 以 上 的 版 本 则 需要 将 配置 文件 放 在 用 户 目录 下 的 wekafiles/ props 子 目 
录 中 。 
(3) 类 路 径 中 。 通 常 是 weka.jar 文件 。 
逮 注意 :Weka 也 是 按 上 述 顺 序 去 查找 配置 文件 的 ， 找 到 后 就 不 再 进行 查找 。 因 此 前 
面 位 置 优先 于 后 面 位 置 。 


1.4.2 访问 数据 库 


重新 启动 Weka。 在 Weka GUI 选择 器 中 ， 单 击 右 边 的 第 一 个 按钮 Explorer， 启 动 探 
索 者 ， 单 击 探索 者 的 第 三 个 按钮 Open DB， 弹 出 如 图 1.18 所 示 的 SQL 查看 器 窗口 。 注 意 
到 URL 栏 的 内 容 ， 已 经 变 成 了 前 文 修改 的 配置 文件 中 jdbcURL 的 值 。 

单 击 Esg 按 钮 ， 设 置 数据 库 连 接 参数 ， 如 图 1.19 所 示 。 根 据 自己 计算 机 的 实际 配置 ， 
输入 数据 库 用 户 名 和 密码 ， 单 击 OK 按钮 完成 设置 。 
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1.18 SQL 查看 器 


单 击 E@ | 按钮 连接 数据 库 ， 如 果 前 面 的 设置 无 误 ， 会 在 SQL 查看 器 窗口 的 下 部 出 现 
数据 库 已 连接 的 提示 ， 如 图 1.20 所 示 。 
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图 1.19 数据 库 连 接 参数 图 1.20 数据库 已 连接 提示 


现在 ， 需 要 从 数据 库 中 查询 数据 。 由 于 本 书 已 经 将 iris 数据 集 导 入 到 名 称 为 iris 的 数 
据 库 表 中 ， 因 此 只 需要 输入 SQL 语句 ， 如 图 1.21 所 示 ， 单 击 Execute 按钮 执行 查询 ， 得 到 
如 图 1.22 所 示 的 查询 结果 。 
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1.21 输入 SQL 语句 1.22 ”查询 结果 


蔡 喜 ! 您 已 经 完成 了 较 难 的 工作 ， 从 数据 库 中 成 功 查询 到 数据 。 


1.4.3 常见 问题 及 解决 办 法 


如 果 读 者 没有 连接 上 数据 库 ， 不 要 着 急 。 按 如 下 顺序 依次 检查 可 能 产生 问题 的 设置 
数据 库 驱 动 程序 是 否 正确 ?CLASSPATH 的 设置 是 否 正 确 ? 配置 文件 中 jdbcDriver 和 
jdbcURL 两 项 配置 是 否 正确 拼写 ? 配置 文件 是 否 放 到 正确 位 置 ? 数据 库 用 户 名 和 密码 是 否 
正确 ?该 数据 库 用 户 是 否 拥 有 足够 权限 ? 数据 库 是 否 已 经 启动 ? 等 等 。 

由 于 Weka 仅 支 持 五 种 数据 类 型 的 属性 : 标 称 型 (nominal)、 数 字 型 (numeric)、 字 符 串 
(string)、 日 期 型 (date) 和 关系 型 (relational)， 而 数据 库 种 类 繁多 ， 支 持 的 字段 类 型 也 不 统 
一 。 因 此 ， 表 1.2 仅 列 出 Weka 支持 的 通过 JDBC 将 数据 库 字段 类 型 映射 到 Java 数据 类 
型 ， 而 不 一 一 列举 所 支持 的 数据 库 字 段 类 型 。 


表 1.2 Weka 支持 的 Java 类 型 


Java 类 型 Java 方 法 Weka 属性 类 型 版 本 

String getStringO [| nominal 

boolean getBoolean0) | 和 nominal 

double getDouble() numeric 

byte getByte() numeric 

short getByteO) | | numeric 

int getInteger() numeric 

long getLong() | 6 | numeric 

float getFloatO numeric 

date getDateO [| date 

text getString() | string at] 
time getTime() | string >3.5.8 


有 时 ， 某 些 数据 库 ( 如 MySQL) 可 能 会 出 现 一 些 字段 类 型 不 能 解释 为 Weka 属性 类 型 的 
情况 ， 这 时 ， 就 需要 将 字段 类 型 映射 为 Weka 支持 的 Java 类 型 。 例 如 ，JDBC 驱动 会 将 
MySQL 的 TEXT 类 型 映射 为 BLOB 类 型 ， 需 要 在 配置 文件 中 手工 修改 映射 关系 ， 在 表 1.2 


TEXT=0 


证 实 了 配置 文件 已 经 将 TEXT 类 型 映射 为 String 类 型 。 
特别 提示 ， 本 书 使 用 MySQL， 记 得 一 定 要 在 配置 文件 加 上 如 下 一 条 代码 行 : 


INT=5 


中 已 经 将 映射 关系 修改 为 映射 到 String 类 型 (0)， 可 以 在 配置 文件 中 找到 如 下 代码 行 : 


将 MySQL 的 INT 类 型 映射 为 numeric 类 型 。 否 则 在 运行 第 四 章 的 实验 时 ，Weka 会 报 


出 “Unknown data type INT. Add entry in weka/experiment/DatabaseUtils props” 的 错误 。 
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1.5 ”示例 数据 集 


Weka 自 带 23 个 ARFF 文件 作为 测试 用 示例 数据 集 ， 文 件 位 于 安装 目录 的 data 子 目 录 
下 ， 如 图 1.23 所 示 。 


图 1.23 Weka 自 带 数据 集 
限于 篇 幅 ， 仅 对 其 中 的 少 部 分 数据 集 进行 说 明 。 


1.5.1 天 气 问 题 


天 气 问题 的 数据 集 很 小 ， 里 面 的 数据 纯 属 虚构 ， 只 是 为 了 用 来 说 明 机 器 学 习 的 方法 。 
该 数据 集 存放 在 Weka 安装 目录 下 的 data 子 目 录 下 ， 有 两 个 文件 weather.numeric.arff 和 
weathernominal.arff， 前 者 有 两 个 属性 使 用 具体 连续 型 数值 ， 后 者 全 部 都 是 用 标 称 型 属性 。 
天 气 数据 集 列 举 了 在 何 种 天 气 条 件 下 可 以 进行 某 体育 运动 ， 数 据 集中 的 样本 有 五 个 属性 值 
来 表示 ， 测 量 不 同 天 气 的 四 个 指标 得 到 样本 。 天 气 问 题 的 四 个 指标 是 ， 天 气 趋势 
(outlook)、 温 度 (temperature)、 湿 度 (humidity) 和 刊 风 (windy)， 最 后 一 个 属性 表示 样本 的 类 
别 ， 即 在 四 个 天 气 指 标的 前 提 下 得 到 是 否 可 运动 (play) 的 结论 。 

天 气 问 题 仅 有 14 个 样本 ， 表 1.3 是 天 气 问 题 的 简单 形式 ， 四 个 属性 值 都 采用 符号 类 来 
表示 ， 而 不 采用 具体 数值 。 其 中 ， 天 气 趋势 的 属性 值 分别 为 ，sunny( 晴 )、overcast( 多 云 ) 和 
rainy( 雨 )， 温 度 属性 值 分 别 为 ，hot( 热 )、mild( 温 暖 ) 和 cool( 凉 爽 ); 湿度 属性 值 分 别 为 : 
high( 高 ) 和 normal( 正 常 ); 刊 风 属性 值 分 别 为 : true( 真 ) 和 false( 假 ); 是 否 可 玩 属性 值 分 别 
为 : yes( 是 ) 和 no( 否 )。 


表 1.3 weather.nominal.arff 的 天 气 数 据 


天 气 趋势 温 度 湿 度 是 否 可 运动 
(outlook) (temperature) (humidity) (play) 
sunny hot high 
sunny hot high no 
Overcast hot high yes 
Tainy mild high yes 
Tain cool es 


Tain cool normal Do 


续 表 

天 气 趋 势 温 度 刮 风 是 否 可 运动 
outlook, temperature, wind. la 

Overcast cool true yes 

sunny mild false no 

sunnm cool false es 

Tainy， mild false yes 

sunny mild tme yes 

Overcast mild true es 

overcast hot false Yes 

rainy mild true no 


机 器 学 习 的 一 个 目标 就 是 要 找 出 数据 的 内 在 关系 ， 本 例 中 ， 就 是 要 得 到 在 什么 天 气 情 
况 下 可 玩 的 规则 。 然 后 ， 根 据 这 个 规则 ， 对 给 定 新 的 天 气 情 况 ， 例 如 : 

outlook = sunny and humidity = high then Play = ? 

给 出 是 否 可 玩 的 判断 。 

表 1.4 是 天 气 问 题 的 稍微 复杂 一 点 的 形式 。 其 中 ， 有 温度 和 湿度 两 个 属性 的 数据 类 型 
是 连续 的 数值 型 ， 因 为 并 不 是 全 部 属性 都 是 数值 型 ， 因 此 称 为 混合 属性 问题 。 如 果 全 部 属 


性 都 是 数值 型 ， 则 称 为 数值 属性 问题 。 
表 1.4 weather.numeric.arff 的 天 气 数据 

天 气 趋势 温 度 湿 度 刮 风 是 否 可 运动 

outlook temperature, humidit wind plal 
sunn 85 85 false no 
sunny 80 90 true no 
Overcast 83 86 false yes 
Tain 70 96 false es 
Tainy， 68 80 false yes 
Tainy 65 70 true Do 
Overcast 64 65 true yes 
sunny 72 5 false no 
sunny 69 70 false yes, 
Tainy 75 80 false yes 
Sunnm 75 70 true es 
Overcast 72 90 true yes 
Overcast 81 75 false yes 
Tain 71 91 true no 


显然 ， 如 果 包 含 了 数值 类 型 的 属性 ， 学 习 方案 可 能 需要 对 此 类 属性 建立 不 等 式 ， 因 
此 ， 得 到 包含 数值 测试 的 规则 比较 复杂 。 


监 福 eeA 赴 1 涛 鲁 


@« 


Ox« 


据 挖掘 与 机 器 学 习 
一 一 WEKA 应 用 技术 与 实 葡 \ 


1.5.2 ” 萝 尾 花 
萝 尾 花 是 芒 尾 属 植物 ， 是 一 种 草本 开花 植物 的 统称 。 芒 尾 花 只 有 三 枚 花瓣 ， 其 余 外 围 
的 那 三 瓣 乃 是 保护 花 鞭 的 花 萝 ， 只 是 由 于 这 三 枚 办 状 花 葛 长 得 酷似 花瓣 ， 以 致 常常 以 假 乱 


真 ， 令 人 难于 辨认 。 其 英文 名 iris 为 “彩虹 ”之 意 ， 暗 指 忘 尾 花 色彩 绚丽 如 同 彩虹 。iris 是 
非常 著名 的 用 于 模式 识别 的 数据 集 ， 该 数据 集 1936 年 由 R.A. Fisher 创建 ，Fisher 的 论文 也 
成 为 经 典 ， 直 到 今天 还 经 常 被 引用 。 意 尾 花 原 始 数据 集 位 于 网 站 http://archive.ics.uci.edu/ 
ml/datasets/Iris。 网 站 由 美国 加 州 大 学 欧文 分 校 (UCI，University of Califomia at Irvine) 维 
护 ，UCI 数据 集 经 常用 于 作为 比较 数据 挖掘 算法 的 基准 。 

意 尾 花 数 据 集 包 括 三 个 类 别 : Iris Setosa( 山 功 尾 )、Iris Versicolour( 变 色 营 尾 ) 和 Iris 
Virginica( 维 吉 尼 亚 意 尾 )， 每 个 类 别 各 有 50 个 实例 。 数 据 集 定义 了 5 个 属性 : sepal 
length( 花 苯 长 )、sepal width( 花 葛 宽 )、petal Iength( 花 辩 长 )、petal width( 花 办 宽 )、class( 类 
别 )。 最 后 一 个 属性 一 般 作为 类 别 属性 ， 其 余 属 性 都 是 数值 ， 单 位 为 cm( 厘 米 )。 

表 1.5 摘录 自 蕊 尾 花 数 据 集 。 该 数据 集 就 是 要 根据 高 尾 花 的 花 苯 和 花瓣 数据 ， 找 出 不 
同类 别 花 的 特点 分 布 情况 ， 揭 示 出 其 中 隐藏 的 规律 性 。 


表 1.5 营 尾 花 数据 集 


类 别 
Iris setosa 
Iris setosa 
Iris setosa, 
Iris setosa 


Iris setosa 


Iris versicolor 
Iris versicolor 


Iris versicolor 


Iris versicolor 


Iris versicolor 


101 6.3 33 6.0 2 Tris virginica 
102 5.8 pd Sh 1 Tris virginica 
103 22 3.0 $.9 2. Iris virginica 


1.5.3 "CPU 

CPU 数据 集 的 属性 和 类 别 属性 都 是 数值 型 ， 训 练 目 标 是 学 习 CPU 的 几 个 相关 属性 与 
其 处 理 能 力 的 关联 ， 总 共有 209 条 不 同 的 CPU 配置 。Weka 提供 两 个 数据 文件 ，cpu.arff 和 
cpu.with.vendor.arff， 区 别 在 于 前 者 不 带 CPU 厂商 信息 (vendor)， 后 者 的 第 一 个 属性 就 是 
厂商 。 

CPU 数据 集 如 表 1.6 所 示 。 其 中 ，MYCT 属性 代表 周期 时 间 ( 单 位 为 ns)，MMIN 和 
MMAX 属性 分 别 是 主 存 的 最 小 值 和 最 大 值 (单位 为 Kb)，CACH 属性 是 高 速 缓存 Cache( 单 
位 为 KB)，CHMIN 和 CHMAX 属性 分 别 是 通道 (Channels) 的 最 小 值 和 最 大 值 ，class 属性 是 
体现 CPU 性 能 的 类 别 属性 。 


表 1.6 CPU 性 能 数据 


CHMAX class 
128 198 
32 269 
32 220 
32 172 
16 132 
0 67 
0 45 


处 理 上 述 连 续 数值 型 预测 值 的 传统 方式 是 线性 回归 ， 将 预测 结果 写 为 每 个 属性 值 的 线 
性 之 和 ， 为 每 个 属性 加 上 适当 的 权重 。 例 如 : 


class = -56.075 + 0.0491 * MYCT + 0.0152 * MMIN + 0.0056 * MMAX + 
0.6298 * CACH + 1.4599 * CHMAX 


1.5.4 ”玻璃 数据 集 


玻璃 数据 集 的 全 称 为 玻璃 识别 数据 库 (Glass Identification Database)， 创 建 者 为 美国 法 
医科 学 服务 (U.S. Forensic Science Service) 的 B. German， 包 含 七 种 类 型 的 玻璃 数据 。 玻 璃 通 
过 其 折射 率 和 所 包含 的 化 学 元 素 进行 描述 ， 目 的 是 基于 这 些 特征 对 不 同类 型 的 玻璃 分 类 。 
该 数据 集 已 被 UCI 收集 ， 成 为 在 网 络 上 免费 提供 的 UCI 数据 集 。Weka 以 glass.arff 文件 提 


数据 集中 的 实例 有 214 个 ， 全 部 属性 都 是 连续 数值 ， 属 性 加 上 类 别 属 性 一 共 10 个 ， 
没有 缺失 值 。 
下 面 列 出 各 属性 信息 。 


(1) RI: 折射 率 (refractive index)。 
(2) Na: 钠 (Sodium)( 测 量 单位 ， 氧 化 物 的 相对 重量 %， 与 属性 3-9 相同 )。 
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一 了 二 


(3) Mg: 镁 (Magnesium)。 

(4) Al: 铝 (Aluminum)。 

(5) Si: 硅 (Silicon)。 

(6) K: 钾 (Potassiumy)。 

(7) Ca: 钙 (Calcium)。 

(8) Ba: 钢 (Barium)。 

(9) Fe: 铁 (Iron)。 

(10) 玻璃 类 型 : (类 别 属性 )。 

e 1building windows_float processed( 浮 动 处 理 过 的 建筑 玻璃 )。 

2 building windows_non float_processed( 未 浮动 处 理 的 建筑 玻璃 )。 
3 vehicle_windows_float_processed( 浮 动 处 理 过 的 车 用 玻璃 )。 

4 vehicle windows_non float_processed( 未 浮动 处 理 的 车 用 玻璃 ) 本 数据 库 未 包含 。 
5 containers( 容 器 )。 

6 tableware( 餐 具 )。 

7 headlamps( 前 大 灯 )。 


1.5.5 美国 国会 投票 记录 


现在 考虑 一 个 现实 世界 的 数据 集 一 一 vote.arff， 该 数据 集 收集 了 1984 年 美国 国会 议员 
投票 信息 ， 原 始 数据 可 以 在 UCI 机 器 学 习 库 找到 ，Weka 自 带 该 数据 集 以 供 研究 。 数 据 集 
包括 435 个 实例 ， 每 个 实例 是 一 个 国会 议员 的 信息 ， 其 中 有 267 名 民主 党 ，168 名 共和 
党 。 全 部 属性 都 是 二 元 属性 ， 总 共有 16 个 属性 ， 外 加 他 们 的 党 派 作为 类 别 属 性 。 

属性 信息 如 下 。 

(1) Class Name( 类 别名 称 ): 2 (democrat 民主 党 , republican 共和 党 )。 

(2) handicapped-infants( 残 疾 人 婴 幼 儿 ): 2 (y.n)。 

(3) water-project-cost-sharing( 水 项 目的 费用 分 挫 ): 2 (y.n)。 

(4) adoption-of-the-budget-resolution( 采 纳 预算 决议 ): 2 (y.n)。 

(5) physician-fee-freeze( 冻 结 医疗 费 ): 2 (y.n)。 

(6) el-salvador-aid(EL- 萨 尔 瓦 多 援助 ): 2 (y,n)。 

(7) religious-groups-in-schools( 学 校 的 宗教 群体 ): 2 (y.n)。 

(8) anti-satellite-test-ban( 反 卫星 试验 禁令 ): 2 (yn)。 

(9) aid-to-nicaraguan-contras( 援 助 尼 加 拉 瓜 反 政府 ): 2 (y.n)。 

(10) mx-missile( 洲 际 弹道 导弹 ): 2 (y,n)。 

(11) immigration( 移 民 ): 2 (y,n)。 

(12) synfuels-corporation-cutback( 削 减 合成 燃料 公司 ): 2 (y,n)。 

(13) education-spending( 教 育 支出 ): 2 (y,n)。 

(14) superfund-right-to-sue( 超 级 基金 的 诉讼 权利 ): 2 (y,n)。 

(15) crime( 犯 罪 ): 2 (yn)。 

(16) duty-free-exports( 出 口 免税 ): 2 (y.n)。 

(17) export-administration-act-south-africa( 南 非 出 口 管 理 法 案 ): 2 (y.n)。 


簿 注意 :， 该 数据 集 带 有 一 些 缺 失 值 ， 使 用 “2?” 来 表示 。 


1.5.6 ”乳腺 癌 数 据 集 


本 乳腺 癌 数 据 集 不 是 从 UCI 获得 ， 而 是 从 南斯拉夫 卢布 尔 雅 那 大 学 医疗 中 心 乳腺 癌 肿 
瘤 研究 所 获得 的 ， 提 供 者 为 M. Zwitter 和 M. Soklic。 

数据 集 一 共有 286 个 实例 ，9 个 属性 外 加 1 个 类 别 属 性 。 属 性 信息 如 下 。 

(1) Class( 是 否 复发 ， 类 别 属性 ): no-recurrence-events( 无 复发 )，recurrence-events( 复 发 )。 

(2) age( 年 龄 ): 10 一 19，20 一 29，30 一 39，40 一 49，50 一 59，60 一 69，70 一 79，80 一 
89，90 一 99。 

(3) menopause( 绝 经 ): lt40( 小 于 40 岁 )，ge40( 大 于 等 于 40 岁 )，premeno( 未 绝经 )。 

(4) tumor-size( 肿 瘤 大 小 ): 0 一 4，5 一 9，10 一 14，15 一 19，20 一 24，25 一 29，30 一 34， 
35 一 39，40 一 44，45 一 49，50 一 $4，535 一 39 。 

(5) inv-nodes( 受 侵 淋 巴结 数 ): 0 一 2，3 一 5，6 一 8，9 一 11，12 一 14，15 一 17，18 一 
20, 21~23; 24~26, 271~29, 30~32, 33~35, 36~39。 

(6) node-caps( 有 无 结 节 冒 ): yes( 有 )，no( 无 )。 

(7) deg-malig( 肿 瘤 恶 性 程度 ): 1，2，3。 

(8) breast( 肿 块 位 置 )，left( 左 )，right( 右 )。 

(9) breast-quad( 肿 块 所 在 象限 ): left-up( 左 上 )，left-low( 左 下 )，right-up( 右 上 )，right- 
low( 右 下 )，central( 中 部 )。 

(10) irradiat( 是 否 放疗 ): yes( 是 )，no( 否 )。 

数据 集中 ， 有 两 个 属性 有 缺失 值 ，node-caps 属性 有 8 个 缺失 值 ，breast-quad 属性 有 1 
个 缺失 值 ， 缺 失 值 都 用 “?” 表 示 。 

类 别 属性 的 分 布 为 : 201 个 实例 无 复发 ，85 个 实例 复发 。 
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1.1 Weka 的 主要 界面 有 哪 几 个 ? 各 有 什么 用 途 ? 

1.2 什么 是 数据 挖掘 ， 什 么 是 机 器 学 习 ? 它们 之 间 有 什么 联系 ? 
1.3 属性 可 以 分 为 哪 几 种 类 型 ? 

1.4 分 类 的 功能 是 什么 ? 为 什么 Weka 要 将 分 类 和 回归 放 在 一 起 ? 
1.5 有 监督 学 习 和 无 监督 学 习 的 区 别 在 哪里 ? 

1.6 聚 类 的 功能 是 什么 ? 

1.7 关联 分 析 有 什么 用 途 ? 

1.8 ”Weka 的 包 管理 器 有 什么 作用 ? 

1.9 配置 Weka， 使 得 能 够 访问 自己 本 地 计算 机 上 的 数据 库 。 

1.10 ”使 用 任意 文本 编辑 器 查看 Weka 自 带 的 其 他 示例 数据 集 。 
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Explorer 界面 


Explorer( 探 索 者 ) 是 Weka 的 主要 图 形 用 户 界面 ， 其 全 部 功能 都 可 通过 
荣 单 选择 或 表单 填写 进行 访问 。 本 章 介 绍 探索 者 的 图 形 用 户 界面 、 预 处 
理 、 分 类 、 聚 类 、 关 联 、 选 择 属性 和 可 视 化 等 内 容 。 
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2.1 图 形 用 户 界面 


启动 Weka GUI 选择 器 窗口 之 后 ， 用 鼠标 单 击 窗口 右 部 最 上 面 的 Explorer 按钮 ， 启 动 
探索 者 界面 。 这 时 ， 由 于 没有 加 载 数 据 集 ， 除 预 处 理 面板 外 ， 其 他 面板 都 变 灰 而 不 可 用 ， 
可 以 使 用 Open file、Open URL、Open DB 或 者 Generate 按钮 加 载 或 产生 数据 集 ， 加 载 数 
据 集 之 后 ， 其 他 面板 才 可 以 使 用 。 

这 里 以 打开 文件 为 例 进行 说 明 。 单 击 左 上 部 的 Open file 按钮 ， 通 过 弹出 的 打开 文件 对 
话 框 ， 选 择 打开 data 子 目 录 下 的 iris.arff 文件 ， 加 载 数据 集 后 的 探索 者 界面 如 图 2.1 所 示 。 


图 2.1 探索 者 界面 
下 面 按 照 先 整体 后 局 部 的 顺序 介绍 图 形 用 户 界面 。 


2.1.1 标签 页 简介 


图 2.1 所 示 界 面 的 项 部 有 六 个 不 同 的 标签 页 ， 代 表 六 个 不 同 的 面板 ， 分 别 对 应 Weka 
所 支持 的 多 种 数据 挖掘 方式 。 如 果 刚 开始 打开 探索 者 界面 ， 那 么 只 有 第 一 个 预 处 理 标签 页 
可 用 ， 其 余 的 标签 文字 全 部 变 为 灰色 而 不 可 用 ， 这 是 因为 必须 先 打开 一 个 数据 集 ， 根 据 应 
用 需要 ， 或 许 还 需要 对 数据 进行 预 处 理 ， 才 能 使 用 其 他 面板 。 

这 六 个 标签 页 的 介绍 如 下 。 

(1) Preprocess( 预 处 理 )。 选 择 数据 集 ， 并 以 不 同方 式 对 其 进行 修改 。 

(2) Classify( 分 类 )。 训 练 用 于 分 类 或 回归 的 学 习 方案 ， 并 对 其 进行 评估 。 

(3) Cluster( 聚 类 )。 学 习 数据 集聚 类 方案 。 

(4) Associate( 关 联 )。 学 习 数 据 关 联 规则 ， 并 对 其 进行 评估 。 

(5) Select attributes( 选 择 属性 )。 选 择 数据 集中 最 相关 的 部 分 属性 。 

(6) Visualize( 可 视 化 )。 查 看 不 同 二 维 数据 散 点 图 ， 并 与 其 进行 互动 。 

每 个 标签 页 都 可 完成 不 同 工 作 ， 单 击 标签 页 上 部 文字 即 可 实现 标签 切换 。 窗 口 底部 包 


括 状态 (Status) 栏 、 日 志 (Log) 按 钮 和 一 只 Weka 鸟 ， 这 些 都 一 直 保 持 可 见 ， 不 论 用 户 切 换 到 
哪 一 个 标签 页 。 


2.1.2 ”状态 栏 


状态 栏 位 于 窗口 的 最 下 部 ， 显 示 让 用 户 了 解 现在 正在 进行 到 哪 一 步 的 状态 信息 。 例 
如 ， 如 果 探 索 者 正在 忙于 加 载 数 据 文件 ， 状 态 栏 会 显示 相应 的 状态 信息 。 

除了 显示 状态 之 外 ， 还 可 以 右 击 来 显示 内 存 信息 ， 以 及 运行 垃圾 回收 器 以 清理 内 存 。 
在 状态 栏 的 任意 位 置 右 击 ， 会 弹出 一 个 上 下 文 菜单 ， 菜 单 只 包括 两 个 菜单 项 一 一 Memory 
information( 内 存 信息 ) 和 Run garbage collector( 运 行 垃圾 回收 器 )， 第 一 个 菜单 项 显示 Weka 
当前 可 用 的 内 存 空间 ， 第 二 个 菜单 项 启动 Java 垃圾 回收 器 ， 搜 寻 不 再 使 用 的 内 存 并 释放 以 
回收 部 分 内 存 空 间 ， 提 供给 新 的 任务 使 用 。 需 要 指出 的 是 ， 垃 圾 回收 器 是 一 个 不 间断 运行 
的 后 台 任务 ， 如 果 不 强制 进行 垃圾 回收 ，Java 虚拟 机 也 会 在 适当 时 候 自动 启动 垃圾 回收 。 

日 志 按钮 位 于 状态 栏 的 右面 ， 单 击 该 按钮 会 打开 可 以 滚动 的 日 志文 本 框 ， 显 示 在 此 次 
运行 期 间 内 Weka 进行 的 全 部 活动 以 及 每 项 活动 的 时 间 戳 。 不 管 是 使 用 图 形 用 户 界面 、 命 
令 行 还 是 Simple CLI， 日 志 都 会 包含 分 类 、 聚 类 、 属 性 选择 等 操作 的 完整 的 设置 字符 串 。 
因此 ， 用 户 可 以 进行 复制 和 粘贴 。 顺 便 提 醒 读者 ， 学 习 日 志 里 记录 的 命令 ， 可 以 深层 次 地 
了 解 Weka 的 内 部 运行 机 制 。 

日 志 按 钮 的 右边 ， 可 以 看 到 称 为 Weka 状态 图 标的 鸟 。 如 果 没有 处 理 过 程 在 运行 ， 小 
鸟 会 坐 下 来 打 个 师 。“X ”符号 旁边 的 数字 显示 目前 有 多 少 个 正在 进行 处 理 的 进程 ， 当 系 
统 空闲 时 ， 该 数字 为 零 ， 数 字 会 随 着 正在 进行 处 理 进 程 数 的 增加 而 增加 。 当 启动 处 理 进程 
时 ， 小 鸟 会 站 起 来 不 停 走动 。 如 果 小 鸟 长 时 间 站 着 不 动 ， 说 明 Weka 出 现 运行 错误 ， 此 时 
用 户 需 要 关闭 并 重新 启动 探索 者 界面 。 


2.1.3 图 像 输出 


Weka 中 显示 的 大 部 分 图 形 ， 不 论 是 通过 GraphVisualizer (图 可 视 化 器 ) 或 是 
TreeVisualizer( 树 可 视 化 器 ) 显 示 的 ， 都 可 以 保存 为 图 像 文件 以 备 将 来 使 用 。 保 存 方法 是 ， 
在 按 下 Alt 键 和 Shift 键 的 同时 ， 在 要 保存 的 图 形 上 单 击 ， 就 可 启动 保存 文件 对 话 框 。 支 持 
的 图 像 文件 格式 有 BMP、JPEG、PNG 和 Postscript 的 EPS， 用 户 可 以 选择 图 像 文件 格式 ， 
还 可 以 修改 输出 图 像 文件 的 尺寸 。 


2.1.4 手把手 教 你 用 
1. 启动 Weka 


从 Windows 左下 角 的 “开始 ”菜单 ， 依 次 选择 “所 有 程序 ”| Weka 3.7.8 | Weka 3.7 菜 
单 命令 ， 启 动 Weka 图 形 用 户 界 面 选择 器 (Weka GUI Chooser) 窗 口 ， 如 图 2.2 所 示 。 

然后 ， 单 击 窗口 右 部 最 上 边 的 Explorer 按钮 启动 Weka 探索 者 ， 如 图 2.3 所 示 。 现 
在 ， 除 Preprocess 标签 页 可 用 外 ， 其 余 标签 页 都 不 可 用 。 
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2.2 ”Weka 图 形 用 户 界面 选择 器 


图 2.3 Weka 探索 者 


2. 了 解 标签 页 

单 击 图 2.3 所 示 的 Open file 按钮 ， 该 按钮 位 于 窗口 的 左上 部 。 启 动 “打开 ”文件 窗 
口 ， 导 航 至 Weka 安装 目录 下 的 data 子 目 录 ， 选 择 iris.arff 文件 ， 如 图 2.4 所 示 。 单 击 “ 打 
开 ” 按 钮 打开 该 文件 。 


图 2.4 打开 文件 窗口 


打开 文件 (或 称 为 加 载 数据 ) 后 的 Weka 探索 者 界面 如 图 2.5 所 示 。 可 以 看 到 ， 加 载 数据 
后 ， 六 个 标签 页 都 变 为 可 用 状态 。 


图 2.5 打开 文件 后 的 探索 者 


读者 自行 切换 标签 页 ， 初 步 了 解 各 标签 页 的 功能 ， 为 后 续 学 习 打 下 基础 。 

3. 了 解 状态 栏 

不 论 切 换 到 哪个 标签 页 ， 都 可 在 探索 者 窗口 下 部 的 状态 栏 查看 状态 信息 。 在 状态 栏 任 
意 位 置 右 击 ， 在 弹出 的 上 下 文 菜单 中 选择 第 一 项 Memory information( 内 存 信息 )， 状 态 栏 显 
示 用 斜 杠 分 割 的 内 存 信 息 ， 格 式 为 : 空闲 内 存 /全 部 内 存 /最 大 内 存 ， 单 位 是 字 节 ， 如 图 2.6 
所 示 。 


[ee i 一 
图 2.6 ”内存 信息 


如 果 选 择 上 下 文 菜单 的 第 二 项 Run garbage collector， 状 态 栏 会 显示 OK 信息 ， 表 示 已 
经 启动 了 垃圾 回收 器 ， 如 图 2.7 所 示 。 


[ 玉 [rs 克 ， 


图 2.7 运行 垃圾 回收 器 
单 击 状态 栏 右边 的 Log 按钮 ， 可 以 查看 当前 日 志 ， 如 图 2.8 所 示 。 


: Weka Explorer 

: (c) 1999-2013 The University of Waikato, Hl 

: web: hetp://ww.cs.waikato.ac.nz/~ml/weka/ 
:59: Started on 星期 六 ，23 三 月 2013 

: Base relation is now iris (150 instances) 


图 2.8 日 志 窗 口 
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4. 保存 图 像 文件 

单 击 图 2.5 所 示 的 界面 右边 的 Visualize All( 全 部 可 视 化 ) 按 钮 ， 打 开 如 图 2.9 所 示 的 全 
部 可 视 化 窗口 。 


图 2.9 全 部 可 视 化 窗口 


同时 按 下 Alt 键 和 Shift 键 ， 并 在 如 图 2.9 所 示 的 五 幅 图 标 中 任 选 一 图 标 ， 在 图 标的 任 
意 位 置 单 击 ， 启 动 保存 文件 对 话 框 。 输 入 文件 名 为 test， 选 择 文件 类 型 为 jpg( 或 其 他 格 
式 )， 单 击 “ 保 存 ” 按 钮 ， 就 可 保存 为 图 像 文件 ， 如 图 2.10 所 示 。 


Er” | 


Di 
nn EM sO 


图 2.10 保存 对 话 框 
在 图 2.10 的 右边 ， 还 可 以 定制 图 像 文件 的 长 、 宽 尺寸 ， 单 位 为 像素 。 选 中 Use custom 
dimensions( 使 用 自 定义 尺寸 ) 复 选 框 就 可 以 设置 图 像 尺 寸 ， 如 果 选 中 Keep aspect ratio( 保 持 
宽 高 比 ) 复 选 框 ， 则 在 修改 图 像 长 (或 宽 ) 的 同时 ， 会 按 比 例 自动 缩放 宽 (或 长 )。 


2.2 预 处 理 


预 处 理 面板 可 以 从 文件 、URL 或 数据 库 中 加 载 数据 集 ， 并 且 根 据 应 用 要 求 或 领域 知识 
过 滤 掉 不 需要 进行 处 理 或 不 符合 要 求 的 数据 。 


2.2.1 加 载 数据 
预 处 理 标签 页 的 前 四 个 按钮 可 以 让 用 户 将 数据 加 载 到 Weka 系统 。Open file 按钮 启动 


Ox« 


打开 文件 对 话 框 ， 用 户 可 以 浏览 本 地 文件 系统 ， 打 开本 地 数据 文件 ，Open URL 按钮 要 求 
用 户 提供 一 个 统一 资源 定位 符 地 址 ，Weka 使 用 HTTP 协议 从 网 络 位 置 下 载 数据 文件 ; 

Open DB 按钮 用 于 从 数据 库 中 读 取 数 据 ， 支 持 所 有 能 够 用 JDBC 驱动 程序 读 取 的 数据 库 ， 

使 用 SQL 语句 或 存储 过 程 读 取 数据 集 。 请 注意 ， 必 须根 据 自己 的 计算 机 环境 配置 ， 相 应 修 
改 weka/experiment/DatabaseUtils.props 配置 文件 后 才能 访问 数据 库 ， 具 体 参 见 第 1 章 连 接 
数据 库 内 容 Generate 按钮 用 于 让 用 户 使 用 不 同 的 DataGenerators( 数 据 生成 器 ) 以 生成 人 工 
数据 ， 适 合用 于 分 类 功能 的 人 工 数据 可 以 由 决策 列表 RDG1、 径 向 基 函 数 网 络 
RandomRBF、 贝 叶 斯 网 络 BayesNet、LED24 等 算法 产生 ， 人 工 回归 数据 也 可 以 根据 数学 
表达 式 生 成 ， 用 于 聚 类 的 人 工 数据 可 以 使 用 现成 的 生成 算法 产生 。 

如 果 使 用 Open file 按钮 ， 可 以 读 取 多 种 数据 格式 的 文件 ， 包 括 Weka ARFF 格式 、 
C4.5 数据 格式 、CSV 格式 、JSON 实例 文件 格式 、libsvm 数据 文件 格式 、Matlib ASCII 文 
件 格 式 、svm 轻 量 级 数据 文件 格式 、XRFF 格式 ， 以 及 序列 化 实例 的 格式 。 其 中 ，ARFF 
格式 文件 的 后 级 为 .arff，C4.5 文件 的 后 缀 为 .data 或 .names，CSV 格式 文件 的 后 级 为 .csv， 
JSON 实例 文件 格式 的 后 级 为 json，libsvm 数据 文件 格式 的 后 缀 为 Jibsvm，Matlib ASCII 文 
件 格式 的 后 缀 为 .m，svm 轻 量 级 数据 文件 格式 的 后 级 为 .dat，XRFF 格式 的 后 级 为 .xrff， 
序列 化 实例 对 象 文件 的 后 缀 为 .bsi。 注 意 到 有 的 格式 后 级 还 加 上 .gz， 这 是 对 应 文件 的 压缩 
形式 。 

另外 ， 使 用 Save( 保 存 ) 按 钮 ， 可 以 将 已 加 载 的 数据 保存 为 Weka 支持 的 所 有 文件 格 
式 。 该 功能 特别 适合 转换 文件 格式 ， 以 及 学 习 Weka 文件 格式 的 细节 。 

由 于 有 多 种 数据 格式 ， 为 了 从 不 同 种 类 的 数据 源 中 导入 数据 ，Weka 提供 实用 工具 类 
进行 转换 ， 这 种 工具 称 为 转换 器 (converters)， 位 于 weka.core.converters 包 中 。 按 照 功能 芯 
不 同 ， 转 换 器 分 为 加 载 器 和 保存 器 ， 前 者 的 Java 类 名 以 Loader 结束 ， 后 者 以 Saver 结束 。 

加 载 数 据 后 ， 预 处 理 面板 会 在 Current relation( 当 前 关系 ) 子 面板 显示 当前 数据 集 的 一 些 
总 结 信息 。Relation( 关 系 ) 栏 显示 关系 名 称 ， 该 名 称 由 加 载 的 文件 给 定 ， 也 可 通过 过 滤器 来 
更 改名 称 ; Attributes( 属 性 ) 栏 显示 数据 集中 的 属性 (或 特征 ) 个 数 ，Instances( 实 例 ) 栏 显示 数 
据 集 中 的 实例 (或 数据 点 /记录 ) 个 数 ，Sum of weights( 权 重 和 ) 栏 显示 全 部 实例 的 权重 之 和 。 
例如 ， 当 加 载 iris 数据 集 后 ， 当 前 关系 子 面板 显示 关系 名 称 为 iis， 属 性 个 数 为 S， 实 例 个 
数 为 130， 权 重 和 为 130， 当 前 关系 子 面板 如 图 2.11 所 示 。 


Current relation 
Relation: iris Attributes: 5 
Instances: 150 Sun of weights: 150 


2.11 当前 关系 子 面板 


Weka 根据 文件 后 组 调用 不 同 的 转换 器 来 加 载 数据 集 。 如 果 Weka 无 法 加 载 数据 ， 就 会 
尝试 以 ARFF 格式 解释 数据 ， 如 果 失 败 ， 就 会 弹出 如 图 2.12 所 示 的 提示 对 话 框 ， 提 示 
Weka 无 法 自动 决定 使 用 哪 一 个 文件 加 载 器 ， 需 要 用 户 自己 来 选择 。 

单 击 图 2.12 中 的 “确定 ”按钮 后 ， 会 弹出 如 图 2.13 所 示 的 通用 对 象 编辑 器 对 话 框 ， 
让 用 户 选 定 能 打开 数据 文件 的 对 应 转换 器 。 默 认 转 换 器 为 CSVLoader， 该 转换 器 专门 用 于 
加 载 后 级 为 .csv 的 文件 。 如 果 用 户 已 经 确定 数据 文件 格式 是 CSV 格式 ， 那 么 可 以 输入 日 期 
格式 、 字 段 分 割 符 等 信息 。 如 果 对 窗口 里 的 各 项 输入 不 了 解 ， 可 以 单 击 More 按钮 查看 使 
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用 说 明 。 


Load Instances i 
| [x) Cannot determire file loader automatically please choose one. 


2.12 ”加 载 数据 失败 


如 果 用 户 已 经 知道 数据 文件 格式 不 是 CSV 格式 ， 可 以 通过 单 击 窗口 上 部 的 Choose 按 
钮 选择 其 他 的 转换 器 ， 如 图 2.14 所 示 。 


图 2.13 通用 对 象 编辑 器 图 2.14 选择 转换 器 


其 中 ， 第 一 个 选项 是 ArffLoader， 选 择 该 选项 并 成 功 的 可 能 性 很 小 ， 因 为 默认 使 用 它 
来 加 载 数据 集 ， 没 有 成 功 才 会 弹出 加 载 数据 失败 的 窗口 。 第 二 个 选项 是 C45Loader，C4.5 
格式 的 数据 集 对 应 两 种 文件 ， 一 种 文件 提供 字段 名 ， 另 一 种 文件 提供 实际 数据 。 第 三 个 选 
项 是 默认 的 CSVLoader， 这 是 一 种 以 逗号 分 隔 各 属性 的 文件 格式 ， 前 文 已 经 介绍 了 这 种 数 
据 转换 器 。 第 四 个 选项 DatabaseLoader 是 从 数据 库 ， 而 不 是 文件 中 读 取 数据 集 。 然 而 ， 使 
用 第 1 章 介绍 的 SQLViewer 工具 来 访问 数据 库 ， 是 更 为 人 性 化 而 方便 的 方案 。 
SerializedInstancesLoader 选项 用 于 重新 加 载 以 前 作为 Java 序列 化 对 象 保存 的 数据 集 。 任 何 
Java 对 象 都 可 以 采用 这 种 格式 予以 保存 并 重新 加 载 。 由 于 序列 化 对 象 本 身 就 是 Java 格式 ， 
使 用 它 可 能 比 加 载 ARFF 文件 的 速度 更 快 ， 这 是 因为 加 载 ARFF 文件 时 必须 对 其 进行 分 析 
和 检查 ， 从 而 花费 更 多 的 时 间 。 如 果 需 要 多 次 加 载 大 数据 集 时 ， 很 值得 以 这 种 数据 格式 进 
行 保存 。 

值得 一 提 的 是 TextDirectoryLoader 选项 ， 它 的 功能 是 导入 一 个 目录 ， 目 录 中 包含 若干 
以 文本 挖掘 为 目的 的 纯 文 本 文件 。 导 入 目录 应 该 有 特定 的 结构 一 一 一 组 子 目 录 ， 每 个 子 目 
录 包 含 一 个 或 多 个 扩展 名 为 .txt 的 文本 文件 ， 每 个 文本 文件 都 会 成 为 数据 集中 的 一 个 实 
例 ， 其 中 ， 一 个 字符 串 属性 保存 该 文件 的 内 容 ， 一 个 标 称 型 的 类 别 属 性 保存 所 在 的 子 目录 
名 称 。 该 数据 集 可 以 通过 使 用 StringToWordVector 过 滤器 进一步 加 工 为 词典 。 


2.2.2 属性 处 理 
在 当前 关系 子 面板 的 下 方 ， 可 以 看 到 Attributes( 属 性 ) 子 面板 ， 该 子 面板 上 部 有 四 个 按 


钮 ， 中 部 是 一 个 三 列 多 行 的 表格 ， 下 部 有 一 个 Remove 按钮， 如 图 2.15 所 示 。 


Attributes 


Em mC Eee | 


2.15 属性 子 面板 


表格 有 三 列表 头 ， 包 括 No.( 序 号 ) 列 、 复 选 框 列 和 Name( 名 字 ) 列 。 其 中 ， 序 号 列 用 于 
标识 指定 数据 集中 的 属性 序号 ， 复 选 框 列 用 于 选择 属性 ， 并 对 其 进行 操作 ; 名字 列 显示 属 
性 名 称 ， 与 数据 文件 的 属性 声明 一 致 。 

表格 里 每 行 表示 一 个 属性 ， 单 击 某 一 行 的 复 选 框 选中 该 行 ， 再 单 击 一 次 则 取消 选中 。 
表格 上 面 的 四 个 按钮 也 可 以 用 于 改变 选中 状态 : All 按钮 使 全 部 复 选 框 都 选中 ， 即 选中 全 
部 属性 ， None 按钮 使 全 部 复 选 框 都 取消 选中 ， 即 不 选中 任何 属性 ，Invert 按钮 反选 ， 即 取 
消 选 中 已 经 选中 的 复 选 框 ， 选 中 没有 选中 的 复 选 框 ，Pattem 按钮 使 用 Perl 5 正则 表达 式 指 
定 要 选中 的 属性 ， 例 如 ，.* id 选择 满足 属性 名 称 以 _id 结束 的 全 部 属性 。 

一 旦 已 经 选中 所 需 的 属性 ， 就 可 以 单 击 属性 列表 下 面 的 Remove 按钮 将 它们 去 除 ， 本 
功能 用 于 去 除 无 关 属 性 。 请 注意 ， 本 功能 仅 去 除 内 存 中 的 数据 集 ， 不 会 更 改 数据 文件 的 内 
容 。 另 外 ， 属 性 去 除 之 后 还 可 以 单 击 Undo 按钮 进行 撤消 ，Undo 按钮 位 于 预 处 理 面 板 的 
上 部 。 

如 果 选 中 某 一 个 属性 ， 例 如 ， 前 面 的 图 2.15 选中 名 称 为 sepallength 的 属性 ， 该 行 的 颜 
色 就 会 变 为 蓝 色 ， 并 且 窗 口 右边 的 Selected attribute( 已 选择 属性 ) 子 面板 将 显示 选中 属性 的 
一 些 信息 ， 图 2.16 和 图 2.17 分 别 是 选择 数值 型 属性 和 选择 标 称 型 属性 的 显示 结果 。 


Selected attribute 


Tone: sepallength Type: Jimeric Selected attribate 
Nissing: 0 (0%) Distinet: 35 Ynigue: 9 人 5) Done: outlook Type: Joainal 
Pvpm ER | _ Nissing: 0 OW Distinet: 3 Vnigue: 0 (0%) | 
Ninimue 43 了 Lbel Count Weight | 
Neximun 19 | FY sy 5 50 
Mean 5.83 [ overeast 4 #0 
Stabev 0.828 | 3|rainy 5 5.0 

2.16 ”选中 数值 型 属性 的 统计 信息 图 2.17 选中 标 称 型 属性 的 统计 信息 


其 中 ，Name 栏 显示 属性 的 名 称 ， 与 属性 列表 中 选中 属性 的 名 称 相 同 ， Type 栏 显示 属 
性 的 类 型 ， 最 常见 的 是 标 称 型 和 数值 型 ， Missing( 缺 失 ) 栏 显示 数据 集中 该 属性 不 存在 或 未 
指定 的 实例 的 数量 及 百分比 Distinct( 不 同 ) 栏 显示 该 属性 取 不 同 值 的 数量 ，Unique( 唯 一 ) 
栏 显示 没有 任何 其 他 实例 拥有 该 属性 值 的 数量 及 百分比 。 

已 选择 属性 子 面板 的 下 部 有 一 个 统计 表格 ， 显 示 该 属性 值 的 更 多 信息 ， 根 据 属性 类 型 
的 不 同 ， 表 格 会 有 所 差别 ， 从 图 2.16 和 图 2.17 可 以 看 到 这 一 点 。 如 果 属 性 是 数值 型 ， 表 
格 显示 数据 分 布 的 四 种 统计 描述 一 一 Minimum( 最 小 值 )、Maximum( 最 大 值 )、Mean( 平 均值 ) 
和 StdDev(Standard Deviation， 标 准 偏差 );， 如 果 属 性 是 标 称 型， 列表 显示 包含 属性 的 全 部 
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能 值 的 No.( 编 号 )、Label( 标 签 ) 表 示 属 性 值 名 称 、Count( 数 量 ) 表 示 拥 有 该 属性 值 的 实例 
ee Weight( 权 重 ) 表 示 拥 有 该 属性 值 的 实例 权重 。 

在 统计 表格 之 下 会 显示 一 个 彩色 直方 图 ， 如 图 2.18 所 示 。 直 方 图 之 上 有 一 个 下 拉 列 表 
框 ， 用 于 选择 类 别 属性 ， 图 2.18 的 类 别 属 性 是 class， 三 种 颜色 代表 三 种 不 同 的 竟 尾 花 ， 
横 坐 标 表 示 当 前 属性 (sepallengthb) 的 取 值 。 注 意 ， 只 有 标 称 型 的 类 别 属 性 才 会 有 彩色 编码 。 
单 击 右边 Visualize All 按钮 ， 会 弹出 一 个 单独 的 窗口 ， 显 示 所 有 属性 的 直方 图 ， 如 前 面 的 
图 2.9 所 示 。 


Class: class giom) ”| Visualize Al | 


图 2.18 彩色 直方 图 


2.2.3 ”过 滤器 

预 处 理 面板 允许 定义 并 执行 以 各 种 方式 转换 数据 的 过 滤器 ， 过 滤器 也 称 为 筛选 器 。 在 
Filter 标签 之 下 有 一 个 Choose( 选 择 ) 按 钮 ， 单 击 该 按钮 可 以 选择 一 个 过 滤器 ， 如 图 2.19 所 
示 。 按 钮 的 右 侧 是 过 滤器 输入 框 ， 用 于 设置 所 选择 的 过 滤器 参数 。 
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图 2.19 过 滤器 


一 旦 选 定 过 滤器 后 ， 其 名 称 和 参数 都 会 显示 在 过 滤器 输入 框 内 。 在 框 内 单 击 会 弹出 一 
个 通用 对 象 编辑 器 对 话 框 ， 如 图 2.20 所 示 。 
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2.20 通用 对 象 编辑 器 对 话 杠 


该 通用 对 象 编 辑 器 对 话 框 用 于 设置 过 滤器 选项 。 此 外 ， 既 然 名 称 里 有 “通用 ”二 字 ， 
显然 该 对 话 框 还 可 以 用 于 设置 其 他 对 象 ， 如 分 类 器 和 聚 类 器 等 ， 详 见 后 文 。 图 2.20 的 
About 框 简要 说 明 所 选择 过 滤器 的 功能 ， 单 击 右 侧 的 More 按钮 ， 弹 出 一 个 显示 更 多 信息 的 
窗口 ， 显 示 过 滤器 的 简介 和 不 同 选项 的 功能 ， 如 图 2.21 所 示 ; 单 击 Capabilities 按钮 ， 弹 
出 一 个 信息 窗口 ， 列 出 所 选择 对 象 能 够 处 理 的 类 别 类 型 和 属性 类 型 ， 如 图 2.22 所 示 。 
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图 2.21 更 多 信息 窗口 图 2.22 能 力 信息 窗口 


图 2.20 对 话 框 的 中 部 ，attributeIndices 文本 框 用 于 让 用 户 输入 属性 的 索引 (或 下 标 )， 
invertSelection 下 拉 列 表 框 只 有 true 和 false 两 个 选项 ， 指 示 是 否 反 选 。 对 话 框 下 端 有 四 个 
按钮 ， 前 两 个 按钮 一 一 Open 按钮 和 Save 按钮 ， 用 于 保存 对 象 选项 设置 ， 以 备 将 来 使 用 ; 
Cancel 按钮 用 于 取消 所 做 的 修改 ， 回 退 到 原来 的 状态 ，OK 按钮 用 于 已 经 正确 完成 设置 
后 ， 返 回 探索 者 窗口 。 

用 鼠标 右 击 (或 用 Alt + Shift+ 单 击 ) 过 滤器 输入 框 ， 就 会 弹出 一 个 菜单 ， 该 菜单 有 三 个 
菜单 项 :Show properties( 显 示 属 性 )、Copy configuration to clipboard( 复 制 设 置 到 剪贴 板 ) 和 
Enter configuration( 输 入 设置 )。 如 果 选 择 Show properties 菜单 项 ， 就 会 弹出 一 个 通用 对 象 
编辑 器 对 话 框 ， 人 允许 用 户 修改 设置 ， 其 功能 与 单 击 过 滤器 输入 框 一 样 ， 如 果 选 择 Copy 
configuration to clipboard 菜单 项 ， 则 将 当前 的 设置 字符 串 
复制 到 剪贴 板 ， 以 便 用 于 Weka 以 外 的 系统 中 ， 当 用 户 设 


置 了 很 长 而 复杂 的 选项 设置 字符 串 并 且 想 将 来 复 用 时 ， @ ee es epiom 
该 功能 尤其 方便 如果 选择 Enter configuration 菜单 项 ， EEE ED 

则 弹出 一 个 输入 对 话 框 ， 让 用 户 直 接 输 入 设置 字符 串 ， 

格式 为 类 名 称 后 接 类 能 够 支持 的 选项 ， 如 图 2.23 所 示 。 图 2.23 输入 设置 对 话 框 
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一 旦 选择 并 配置 一 个 过 滤器 后 ， 就 可 以 将 其 应 用 到 数据 集 。 单 击 位 于 预 处 理 面板 中 
Filter 子 面板 右 端 的 Apply 按钮 ， 预 处 理 面板 会 显示 转换 后 的 数据 信息 。 如 果 对 结果 不 满 
意 ， 可 以 单 击 Undo 按钮 撤消 转换 ， 还 可 以 单 击 Edit 按钮 在 数据 集 编辑 器 里 手动 修改 数 
据 。 如 果 满 意 修改 后 的 结果 ， 可 以 单 击 预 处 理 面板 右上 角 的 Save 按钮 ， 将 当前 关系 以 文 
件 格式 进行 保存 ， 以 供 将 来 使 用 。 

使 用 直方 图 上 面 的 下 拉 列 表 框 ， 可 以 设置 类 别 属性 。 根 据 是 否 设置 类 别 属 性 ， 有 些 过 
滤器 的 行为 会 有 所 不 同 。 特 别 地 ， 有 监督 过 滤器 要 求 设置 类 别 属性 ， 一 些 无 监督 的 属性 过 
滤器 会 忽略 类 别 属性 ， 即 使 已 经 设置 了 类 别 属性 。 请 注意 ， 如 果 不 想 设置 类 别 属性 ， 可 以 
将 类 别 属性 设置 为 None。 


2.2.4 过 滤器 算法 介绍 


本 节 介 绍 在 Weka 中 实现 的 过 滤 算法 ， 这 些 过 滤 算 法 都 可 以 用 于 探索 者 、 知 识 流 和 实 
验 者 界面 。 

所 有 的 过 滤器 都 是 将 输入 数据 集 进行 某 种 程度 的 转换 ， 转 换 为 适合 数据 挖掘 的 形式 。 
选择 某 个 过 滤器 之 后 ， 过 滤器 的 名 字 及 默认 参数 会 出 现在 Choose 按钮 旁 的 输入 框 内 ， 通 
过 单 击 该 框 可 以 在 通用 对 象 编辑 器 中 设置 其 属性 。 过 滤器 以 及 参数 都 会 以 命令 行 的 方式 显 
现在 输入 框 ， 仔 细 观 察 和 研究 这 些 过 滤器 和 参数 设置 ， 是 学 习 如 何 直接 使 用 Weka 命令 的 
好 方法 。 

Weka 过 滤器 分 为 无 监督 过 滤器 和 有 监督 过 滤器 两 种 。 过 滤器 经 常 应 用 于 训练 集 ， 然 
后 再 应 用 于 测试 集 。 如 果 过 滤器 是 有 监督 的 ， 例 如 ， 使 用 带 类 别 值 的 离散 化 过 滤器 是 有 监 
督 的 ， 如 果 将 训练 得 到 的 良好 间隔 施加 到 测试 集中 ， 可 能 会 使 结果 出 现 偏 倚 。 因 此 ， 使 用 
有 监督 的 过 滤器 时 ， 必 须 非 常 小 心 ， 以 确保 评估 结果 的 公平 性 。 然 而 ， 由 于 无 须 经 过 训 
练 ， 无 监督 过 滤器 就 不 会 出 现 这 个 问题 。 

Weka 将 无 监督 和 有 监督 两 种 过 滤 方 法 分 开 处 理 ， 每 种 类 型 又 细 分 为 属性 过 滤器 和 实 
例 过 滤器 ， 前 者 作用 于 数据 集中 的 属性 ， 后 者 作用 于 数据 集中 的 实例 。 要 了 解 某 个 过 滤器 
的 更 多 使 用 信息 ， 请 在 Weka 探索 者 中 选择 该 过 滤器 ， 并 查看 对 应 的 对 象 编辑 器 ， 以 了 解 
该 过 滤器 的 功能 和 选项 。 

Weka 实现 的 过 滤器 的 更 详细 介绍 请 参见 附录 C， 附 录 C 按照 字母 排列 顺序 列 出 各 过 
滤器 的 功能 及 选项 。 本 节 按 照 过 滤器 的 类 型 和 功能 顺序 进行 介绍 。 


1. 无 监督 属性 过 滤器 


1) 添加 和 删除 属性 

Add 过 滤器 在 一 个 给 定 的 位 置 插入 一 个 属性 ， 对 于 所 有 实例 该 属性 值 声明 为 缺失 。 使 
用 通用 对 象 编辑 器 来 指定 属性 名 称 ， 指 定 的 属性 名 称 会 出 现在 属性 列表 中 ， 标 称 属性 还 可 
以 指定 可 能 值 ， 日 期 属性 还 可 以 指定 日 期 格式 。Copy 过 滤器 复制 现 有 属性 ， 这 样 就 可 以 在 
实验 时 保护 这 些 属性 ， 以 免 属性 值 为 过 滤器 所 覆盖 。 使 用 表达 式 可 以 一 起 复制 多 个 属性 ， 
例如 ，“1-3” 复 制 前 三 个 属性 ，“first-3,5.9-last” 复 制 属性 “1、2、3、5、9、10、11、 
12、…”。 选 择 可 以 进行 反 转 ， 即 反选 ， 反 选 选中 除了 选 定 属性 以 外 的 所 有 属性 。 很 多 过 
滤器 都 拥有 表达 式 和 反选 功能 。 


AddID 过 滤器 在 用 户 指定 索引 的 属性 列表 中 插入 一 个 数字 标识 符 属 性 。 标 识 符 属性 常 
用 于 跟踪 某 个 实例 ， 尤 其 是 在 已 经 通过 某 种 方式 处 理 过 数据 集 之 后 ， 例 如 ， 通 过 其 他 过 滤 
器 进行 过 转换 ， 或 者 随机 化 重 排 实例 的 顺序 之 后 ， 标 识 符 便于 跟踪 。 

Remove 过 滤器 删除 数据 集中 指定 范围 的 属性 ， 与 之 类 似 的 有 RemoveType 过 滤器 和 
RemoveUseless 过 滤器 ，RemoveType 过 滤器 删除 指定 类 型 ( 标 称 、 数 值 、 字 符 串 、 日 期 、 
或 关系 ) 的 所 有 属性 ，RemoveUseless 过 滤器 删除 常量 属性 以 及 几乎 与 所 有 实例 的 值 都 不 相 
同 的 标 称 属性 。 用 户 可 以 通过 规定 不 相同 值 的 数量 占 全 部 值 总 数 的 百分比 来 设 定 可 以 容忍 
的 变化 度 ， 决 定 是 否 删除 一 个 属性 。 需 要 注意 的 是 ， 如 果 在 预 处 理 面板 已 经 设置 了 类 别 属 
性 (默认 情况 下 ， 最 后 一 个 属性 就 是 类 别 属性 )， 一 些 无 监督 属性 过 滤器 的 行为 不 同 。 例 
如 ，RemoveType 和 RemoveUseless 过 滤器 都 会 跳 过 类 别 属性 。 

InterquartileRange 过 滤器 添加 新 属性 ， 以 指示 实例 的 值 是 否 可 以 视 为 离 群 值 或 极端 
值 。 离 群 值 和 极端 值 定义 为 基于 属性 值 的 第 25 个 和 第 75 个 四 分 位 数 之 间 的 差 。 如 果 用 户 
指定 的 极端 值 系 数 和 四 分 位 距 的 乘积 值 高 于 第 75 个 四 分 位 数 ， 或 低 于 第 25 个 四 分 位 数 ， 
该 值 就 标记 为 极端 值 (也 有 超出 上 述 范 围 标记 为 离 群 值 但 不 是 极端 值 的 情况 )。 可 以 设置 该 
过 滤器 ， 如 果 某 个 实例 的 任意 属性 值 认 为 是 离 群 值 或 极端 值 ， 或 产生 离 群 极端 的 指标 ， 可 
以 标记 该 实例 为 离 群 值 或 极端 值 。 也 可 以 将 所 有 极端 值 标记 为 离 群 值 ， 并 输出 与 中 位 数 偏 
离 多 少 个 四 分 位 数 的 属性 。 该 过 滤器 忽略 类 别 属性 。 

AddCluster 过 滤器 先 将 一 种 聚 类 算法 应 用 于 数据 ， 然 后 再 进行 过 滤 。 用 户 通过 对 象 编 
辑 器 选择 聚 类 算法 ， 其 设置 方式 与 过 滤器 一 样 。AddCluster 对 象 编辑 器 通过 自己 界面 的 
Choose 按钮 来 选择 聚 类 器 ， 用 户 单 击 按钮 右边 方 框 开启 另外 一 个 对 象 编辑 器 窗口 ， 在 新 窗 
口中 设置 聚 类 器 的 参数 ， 必 须 填写 完整 后 才能 返回 AddCluster 对 象 编 辑 器 。 一 旦 用 户 选 定 
一 个 聚 类 器 ，AddCluster 会 为 每 个 实例 指定 一 个 簇 号 ， 作 为 实例 的 新 届 性 。 对 象 编辑 器 还 
允许 用 户 在 聚 类 时 忽略 某 些 属性 ， 如 前 文 所 述 的 Copy 过 滤器 那样 指定 。 
ClusterMembership 过 滤器 在 过 滤器 对 象 编 辑 器 指定 所 使 用 的 聚 类 器 ， 生 成 筷 隶 属 度 值 ， 以 
形成 新 的 属性 。 如 果 设 置 了 类 别 属性 ， 在 聚 类 过 程 中 会 忽略 。 

AddExpression 过 滤器 通过 将 一 个 数学 函数 应 用 于 数值 型 属性 而 生成 一 个 新 属性 。 表 达 
式 可 包括 属性 引用 和 常量 ， 四 则 运算 符 +、-、 *、 /和 ^， 函 数 log、abs、cos、exp、 
sqrt、floor、ceil、rint、tan、sin 以 及 左右 括号 。 属 性 可 通过 索引 加 前 级 a 确定 ， 例 如 a7 指 
第 七 个 属性 。 表 达 式 范例 如 下 : 


al^2*a5/log (a7*4.0) 


MathExpression 过 滤器 与 AddExpression 过 滤器 类 似 ， 它 根据 给 定 的 表达 式 修改 数值 
属性 ， 能 够 用 于 多 个 属性 。 该 过 滤器 只 是 在 原 地 修改 现 有 属性 ， 并 不 创建 新 属性 。 正 因为 
如 此 ， 该 表达 式 不 能 引用 其 他 属性 的 值 。 所 有 的 适用 于 AddExpression 过 滤器 操作 符 都 可 
用 ， 还 可 以 求 正在 处 理 属 性 的 最 小 值 、 最 大 值 、 平 均值 、 和 、 平 方 和 ， 以 及 标准 偏差 。 此 
外 ， 可 以 使 用 的 包含 运算 符 和 函数 的 简单 下 then-else 的 表达 式 。 

NumericTransform 过 滤器 通过 对 选中 的 数值 属性 调用 Java 函数 ， 可 以 执行 任意 的 转 
换 。 该 函数 可 以 接受 任意 double 数值 作为 参数 ， 返 回 值 double 类 型 。 例 如 ， 
java.lang.Math 包 的 sqrt0 函 数 就 符合 这 一 标准 。NumericTransform 过 滤器 有 一 个 参数 是 实 
现 该 函数 Java 类 的 全 限定 名 称 ， 还 有 一 个 参数 是 转换 方法 的 名 称 。 


副 酒 18101dx3 册 z 小 多 


Or« 


Ox« 


数据 挖掘 与 机 器 学 习 
一 一 WEKA 应 用 技术 与 法 三 \ 


Normalize 过 滤器 将 数据 集中 的 全 部 数值 属性 规范 化 为 [0.1] 区 间 。 规 范 化 值 可 以 采用 用 
户 提供 的 常数 进一步 进行 缩放 和 转换 。Center 和 Standardize 过 滤器 能 将 数值 属性 转换 为 具 
有 零 均 值 ， 后 者 还 能 转换 为 具有 单位 方差 的 数值 属性 。 如 果 设置 了 类 别 属性 ， 上 述 三 个 过 
滤器 都 会 跳 过 ， 不 对 类 别 属 性 进行 处 理 。RandomSubset 过 滤器 随机 选择 属性 的 一 个 子 集 ， 
并 包括 在 输出 中 。 可 以 用 绝对 数值 或 百分比 指定 抽取 的 范围 ， 输 出 的 新 数据 集 总 是 把 类 别 
属性 作为 最 后 一 个 属性 。 

PartitionedMultiFilter 是 一 种 特殊 的 过 滤器 ， 在 输入 数据 集中 一 组 对 应 的 属性 范围 内 应 
用 一 组 过 滤器 。 只 允许 使 用 能 操作 属性 的 过 滤器 ， 用 户 提供 和 配置 每 个 过 滤器 ， 定 义 过 滤 
器 工作 的 属性 范围 。removeUnused 选项 可 以 删除 不 在 任何 范围 内 属性 。 将 各 个 过 滤器 的 输 
出 组 装 成 一 个 新 的 数据 集 。Reorder 过 滤器 改变 数据 中 属性 的 顺序 ， 通 过 提供 属性 索引 列 
表 ， 指 定 新 顺序 。 另 外 ， 通 过 省 略 或 复制 属性 索引 ， 可 以 删除 属性 或 添加 多 个 副本 。 

2) 改变 值 

SwapValues 过 滤器 交换 同一 个 标 称 属性 的 两 个 值 的 位 置 。 值 的 顺序 不 影响 学 习 ， 但 如 
果 选 择 了 类 别 属 性 ， 顺 序 的 改变 会 影响 到 混淆 矩阵 的 布局 。MergeTwoValues 过 滤器 将 一 
个 标 称 属性 的 两 个 值 合 并 为 一 个 单独 的 类 别 ， 新 值 的 名 称 是 原 有 两 个 值 的 字符 串 连 接 ， 每 
一 个 原 有 值 的 每 次 出 现 都 更 换 为 新 值 ， 新 值 的 索引 比 原 有 值 的 索引 小 。 例 如 ， 如 果 合 并 天 
气 数据 集中 outlook 属性 的 前 两 个 值 ， 其 中 有 五 个 sunny、 四 个 overcast、 五 个 rainy 实例 ， 
新 的 outlook 属性 就 包含 sunny_overcast 和 rainy 值 ， 将 有 九 个 sunny_overcast 实例 和 原 有 
的 五 个 rainy 实例 。 

处 理 缺 失 值 的 一 个 方法 是 在 实施 学 习 方案 前 ， 全 局 替换 缺失 值 。ReplaceMissingValues 
过 滤器 用 均值 取代 每 个 数值 属性 的 缺失 值 ， 用 出 现 最 多 的 众 数 取代 标 称 属性 的 缺失 值 。 如 
果 设 置 了 类 别 属性 ， 默 认 不 替换 该 属性 的 缺失 值 ， 但 可 以 使 用 ignoreClass 选项 进行 修改 。 

NumericCleaner 过 滤器 用 默认 值 取 代数 值 属性 中 值 太 小 ， 或 太 大 ， 或 过 于 接近 某 个 特 
定 值 。 也 可 以 为 每 一 种 情况 指定 不 同 的 默认 值 ， 供 选择 情况 包括 的 认定 为 太 大 或 太 小 的 阔 
值 ， 以 及 过 于 接近 定义 容 差 值 (tolerance value)。 

如 果 属 性 标签 缺失 ， 可 以 使 用 AddValues 过 滤器 为 该 属性 添加 给 定 标签 列表 。 标 签 能 
以 升序 的 方式 进行 排序 。 如 果 没 有 提供 标签 ， 则 只 能 选择 排序 功能 。 

AddValues 过 滤器 对 照 用 户 提供 的 列表 ， 并 在 标 称 属性 中 添加 其 中 不 存在 的 值 ， 可 以 
选择 对 标签 进行 排序 。ClassAssigner 过 滤器 用 于 设置 或 取消 数据 集 的 类 别 属性 。 用 户 提供 
新 的 类 别 属性 的 索引 ， 索 引 为 0 值 则 取消 当前 类 别 属性 。 

3) 转换 

许多 过 滤器 将 属性 从 一 种 形式 转换 为 另 一 种 形式 。Discretize 过 滤器 使 用 等 宽 或 等 频 分 
箱 将 指定 范围 的 数值 属性 离散 化 。 对 于 等 宽 分 箱 方法 ， 可 以 指定 箱 数 ， 或 使 用 留 一 法 交叉 
验证 自动 选择 使 似 然 值 最 大 化 。 也 可 以 创建 多 个 二 元 属性 ， 蔡 换 一 个 多 元 属性 。 对 于 等 频 
离散 化 ， 可 以 改变 每 个 分 隔 期 望 的 实例 数量 。PKIDiscretize 过 滤器 使 用 等 频 分 箱 离散 化 数 
值 属 性 ， 箱 的 数目 设置 为 等 于 非 缺 失 值 数量 的 平方 根 。 默 认 情况 下 ， 上 述 两 个 过 滤器 都 跳 
过 类 别 属性 。 

MakeIndicator 过 滤器 将 标 称 属性 转换 为 二 元 指示 符 属 性 ， 可 以 用 于 将 多 个 类 别 的 数据 
集 转 换 成 多 个 两 个 类 别 的 数据 集 。 它 用 二 元 属性 替换 所 选择 的 标 称 属性 ， 其 中 ， 如 果 某 个 


特定 的 原始 值 存在 ， 该 实例 的 值 为 1， 否 则 为 0。 新 属性 默认 声明 为 数值 型 ， 但 如 果 需 
要 ， 也 可 以 声明 为 标 称 型 。 

对 于 一 些 学 习 方 案 ， 如 支持 向 量 机 ， 多 元 标 称 属性 必须 被 转换 成 二 元 属性 。 
NominalToBinary 过 滤器 能 将 数据 集中 的 所 有 指定 的 多 元 标 称 属性 转换 为 二 元 属性 ， 使 用 
一 种 简单 的 “每 值 一 个 ”(one-per-value) 编 码 ， 将 每 个 属性 蔡 换 为 大 个 二 元 属性 的 天 个 值 。 
默认 情况 下 ， 新 属性 将 是 数值 型 ， 已 经 是 二 元 属性 的 将 保持 不 变 。NumericToBinary 过 滤 
器 将 除了 类 别 属性 外 的 所 有 数值 属性 转换 成 标 称 二 元 属性 。 如 果 数 值 属 性 的 值 恰好 为 0， 
新 属性 值 也 为 0， 如 果 属 性 值 缺失 ， 新 属性 值 也 缺失 ， 和 否则， 新 属性 的 值 将 为 1。 上 述 过 
滤器 都 跳 过 类 别 属性 。NumericToNominal 过 滤器 通过 简单 地 增加 每 一 个 不 同 数值 到 标 称 值 
列表 ， 将 数值 属性 转换 为 标 称 属性 。 该 过 滤器 在 导入 “.csv” 文 件 之 后 非常 有 用 ，Weka 的 
csV 导入 机 制 对 所 有 的 可 解析 为 数字 的 数据 列 都 相应 创建 为 数值 型 属性 ， 但 有 时 将 整 型 属 
性 的 值 解释 为 离散 的 标 称 型 有 可 能 更 为 恰当 。 

FirstOrder 过 滤器 对 一 定 范围 的 数值 属性 应 用 一 阶 差分 算 子 。 算 法 为 : 将 N 个 数值 型 
属性 蔡 换 为 N-1 个 数值 型 属性 ， 其 值 是 原来 实例 中 连续 属性 值 之 差 ， 即 新 属性 值 等 于 后 一 
个 属性 值 减 去 前 一 个 属性 值 。 例 如 ， 如 果 原 来 的 属性 值 分 别 为 3、2、1， 则 新 的 属性 值 将 
是 =1s =js 

KemelFilter 过 滤器 将 数据 转换 为 核 矩 阵 。 它 输出 一 个 新 数据 集 ， 包 含 的 实例 数量 和 原 
来 的 一 样 ， 新 数据 集 的 每 个 值 都 是 用 核 函 数 评估 一 对 原始 实例 的 结果 。 默 认 情 况 下 ， 预 处 
理 使 用 Center 过 滤器 ， 将 所 有 的 值 都 转换 为 将 中 心平 移 至 0， 尽 管 没有 重新 缩放 为 单位 方 
差 。 然 而 ， 用 户 也 可 以 指定 用 不 同 的 过 滤器 。 

PrincipalComponents 过 滤器 在 数据 集 上 进行 主 成 分 转换 。 将 多 元 标 称 属性 转换 为 二 元 
属性 ， 用 均值 蔡 换 缺 失 值 ， 默 认 将 数据 标准 化 。 主 成 分 数量 通常 根据 用 户 指定 的 覆盖 比例 
的 方差 确定 ， 但 也 可 以 明确 指定 主 成 分 数量 。 

4) 字符 串 转换 

字符 串 属 性 值 的 数目 不 定 。StringToNominal 过 滤器 用 一 组 值 将 其 转换 为 标 称 型 。 用 户 
要 确保 所 有 要 出 现 的 字符 串 值 都 会 在 第 一 批 数 据 中 出 现 。NominalToString 过 滤器 转换 的 方 
向 相反 。 

StringToWordVector 过 滤器 将 字符 串 属 性 值 转换 生成 表示 单词 出 现 频率 的 数值 属性 。 
单词 集合 就 是 新 的 属性 集 ， 由 字符 串 属性 值 的 完整 集合 确定 。 新 属性 可 以 采用 用 户 指定 的 
前 级 来 命名 ， 这 样 通过 名 称 容易 区 分 来 源 不 同 的 字符 串 属 性 。 

ChangeDateFormat 过 滤器 更 改 用 于 解析 日 期 属性 的 格式 化 字符 串 ， 可 以 指定 Java 的 
SimpleDateFormat 类 所 支持 的 任意 格式 。 

5) 时 间 序 列 

Weka 提供 两 种 处 理 时间 序 列 的 过 滤器 。TimeSeriesTranslate 过 滤器 将 当前 实例 的 属性 
值 蔡 换 为 以 前 (或 未 来 ) 的 实例 的 等 效 属 性 值 。TimeSeriesDelta 过 滤器 将 当前 实例 的 属性 值 
替换 为 以 前 (或 未 来 ) 的 实例 的 等 效 属 性 值 与 当前 值 之 间 的 差 值 。 对 于 时 移 差 值 未 知 的 实 
例 ， 要 么 删除 实例 ， 要 么 使 用 缺失 值 。 

6) 随机 化 

一 些 属性 过 滤器 有 意 降 低 数据 的 质量 。AddNoise 过 滤器 按照 指定 的 一 定 比例 更 改 标 称 
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属性 的 值 。 可 以 保留 缺失 值 ， 也 可 以 让 缺失 值 和 其 他 值 一 起 变化 。Obfuscate 过 滤器 对 关系 
属性 、 全 部 属性 名 称 ， 以 及 所 有 标 称 型 和 字符 串 型 属性 值 进行 重 命名 ， 对 数据 集 进行 模糊 
处 理 ， 目 的 主要 是 为 了 交换 敏感 数据 集 。RandomProjection 过 滤器 通过 使 用 列 为 单位 长 
度 的 随机 和 矩阵， 将 数据 投影 到 一 个 低 维 子 空间 ， 以 此 来 降低 数据 维 数 。 投 影 不 包括 类 别 
属性 。 


2. 无 监督 实例 过 滤器 


1) 随机 化 和 子 采 样 

Randomize 过 滤器 用 于 将 数据 集中 实例 顺序 进行 随机 重 排 。 产 生 的 数据 子 集 的 方式 有 
很 多 种 。Resample 过 滤器 产生 一 个 有 放 回 或 无 放 回 数据 集 的 随机 子 样本 。RemoveFolds 过 
滤器 将 数据 集 分 割 为 给 定 的 交叉 验证 折 数 ， 并 指定 输出 第 几 折 。 如 果 提 供 一 个 随机 数 种 
子 ， 在 提取 子 集 前 ， 先 对 数据 集 重 新 排序 。ReservoirSample 过 滤器 使 用 水 库 抽样 算法 从 数 
据 集中 抽取 一 个 随机 样本 (无 放 回 )。 当 在 知识 流 界面 或 命令 行 界 面 使 用 时 ， 可 以 增 量 读 取 
数据 集 ， 因 此 可 以 抽样 超出 主 内 存 容 量 的 数据 集 。 

RemovePercentage 过 滤器 删除 数据 集中 的 给 定 百 分 比 的 实例 。RemoveRange 过 滤器 删 
除数 据 集 里 给 定 范围 的 实例 。RemoveWithValues 过 滤器 删除 符合 条 件 的 实例 ， 如 标 称 属性 
具有 一 定 值 的 ， 或 者 数值 属性 大 于 或 小 于 特定 阔 值 的 。 默 认 情 况 下 ， 会 删除 所 有 满足 条 件 
的 实例 。 也 可 以 反 向 匹配 ， 保 留 所 有 满足 条 件 的 实例 ， 删 除 其 余 实 例 。 

RemoveFrequentValues 过 滤器 用 于 删除 那些 满足 某 个 标 称 型 属性 值 最 经 常 或 最 不 经 常 
使 用 的 对 应 的 实例 。 用 户 可 以 指定 频 度 多 大 或 多 小 的 具体 值 。 

SubsetByExpression 过 滤器 选择 那些 满足 用 户 提供 的 逻辑 表达 式 的 所 有 实例 。 表 达 式 
可 以 是 数学 运算 符 和 函数 ， 如 那些 可 用 于 AddExpression 和 MathExpression 过 滤器 的 运算 
符 和 函数 ， 以 及 应 用 于 属性 值 的 逻辑 运算 符 (与 或 非 )。 例 如 以 下 表达 式 : 


(CLASS is 'mammal') and (ATT14 > 2) 


选择 那些 CLASS 属性 值 为 mammal 并 且 第 14 个 属性 的 值 大 于 2 的 实例 。 

通过 将 分 类 方法 应 用 到 数据 集 ， 然 后 使 用 RemoveMisclassified 过 滤器 删除 错误 分 类 的 
实例 ， 可 以 删除 离 群 值 。 通 常 上 述 过 程 需要 重复 多 遍 ， 直 到 充分 清洗 数据 ， 也 可 以 指定 最 
大 的 迭代 次 数 。 除 了 评估 训练 数据 ， 还 可 以 使 用 交叉 验证 ， 对 数值 类 别 也 可 以 指定 的 错误 
闵 值 。 

2) 稀疏 实例 

NonSparseToSparse 过 滤器 将 全 部 输入 实例 转换 为 稀 朴 格式 。SparseToNonSparse 过 滤 
器 将 输入 的 所 有 稀 玻 实例 转换 为 非 稀疏 格式 。 


3. 有 监督 属性 过 滤器 


Discretize 过 滤器 将 数据 集中 一 定 范围 内 的 数值 属性 离散 化 为 标 称 属性 ， 用 户 指定 属性 
的 范围 以 及 强制 属性 进行 二 元 离散 化 。 要 求 类 别 属 性 为 标 称 属 性 ， 默 认 的 离散 化 方法 是 
Fayyad & Irani 的 MDL( 最 小 描述 长 度 ) 判 据 ， 也 可 以 使 用 Kononenko 方法 。 

NominalToBinary 过 滤器 也 有 一 个 有 监督 版 本 ， 将 全 部 标 称 属 性 转换 成 二 元 的 数值 属 
性 。 在 有 监督 版 本 中 ， 类 别 属 性 是 标 称 型 还 是 数值 型 ， 决 定 如 何 进行 转换 。 如 果 是 标 称 


型 ， 使 用 每 个 值 一 个 属性 的 方法 ， 将 个 值 的 属性 转换 成 个 二 元 属性 。 如 果 是 数值 型 ， 
考虑 类 别 平 均值 与 每 个 属性 值 的 关联 ， 创 建 大 1 个 新 的 二 元 属性 。 两 种 情况 都 不 改变 类 别 
本 身 。 

ClassOrder 过 滤器 更 改 类 别 顺序 。 用 户 指定 新 顺序 是 否 按 随机 顺序 ， 或 按 类 别 频率 进 
行 升序 或 降序 排列 。 该 过 滤器 不 能 与 FilteredClassifier 元 学 习 方案 联合 使 用 。 
AttributeSelection 过 滤器 用 于 自动 属性 选择 ， 并 提供 与 探索 者 界面 中 Select attributes 子 面 
板 相 同 的 功能 。 

AddClassification 过 滤器 使 用 指定 分 类 器 为 数据 集 添 加 分 类 、 分 类 分 布 和 错误 标志 。 
分 类 器 可 以 通过 对 数据 本 身 进 行 训练 而 得 到 ， 也 可 以 通过 序列 化 模型 得 到 。 

4. 有 监督 实例 过 滤器 

Weka 提供 三 个 有 监督 的 实例 过 滤器 。 

Resample 过 滤器 与 同名 的 无 监督 实例 过 滤器 类 似 ， 但 它 保 持 在 子 样 本 的 类 别 分 布 。 另 
外 ， 它 可 以 配置 是 否 使 用 均匀 的 分 类 偏 倚 ， 抽 样 可 以 设置 为 有 放 回 (默认 ) 或 无 放 回 模式 。 

SpreadSubsample 过 滤器 也 产生 一 个 随机 子 样本 ， 但 可 以 控制 最 稀少 和 最 常见 的 类 别 之 
间 的 频率 差异 。 例 如 ， 可 以 指定 至 多 2 : 1 类 别 频率 差异 ， 也 可 以 通过 明确 指定 某 个 类 别 
的 最 大 计数 值 ， 限 制 实例 的 数量 。 

与 无 监督 的 实例 过 滤器 RemoveFolds 相似 ，StratifiedRemoveFolds 过 滤器 为 数据 集 输 
出 指定 交叉 验证 的 折 ， 不 同 之 处 在 于 本 次 的 折 是 分 层 的 。 


2.2.5 手把手 教 你 


1. 使 用 数据 集 编辑 器 


Weka 可 以 查看 和 编辑 整个 数据 集 。 

首先 加 载 weather.nominal.arff 文件 ， 单 击 预 处 理 面 板 上 端的 Edit 按钮 ， 弹 出 一 个 名 称 
为 Viewer( 阅 读 器 ) 的 对 话 框 ， 列 出 全 部 天 气 数据 。 该 窗口 以 二 维 表 的 形式 展现 数据 ， 用 于 
查看 和 编辑 整个 数据 集 ， 如 图 2.24 所 示 。 
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ED EN le | 
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4.0| 50lRWE [yes 
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ED TOIEALSE ze 
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图 2.24 ”数据 集 编辑 器 对 话 框 
数据 表 项 部 显示 当前 数据 集 的 关系 名 称 。 表 头 列 出 数据 集 各 属性 的 序号 、 名 称 和 数据 
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类 型 。 数 据 集 编辑 器 的 第 一 列 是 序号 ， 标 识 实例 的 编号 。 

窗口 右 下 部 有 三 个 按钮 ，Undo 按钮 撤消 所 做 的 修改 ， 不 关闭 窗口 ，OK 按钮 提交 所 做 
的 修改 ， 关 闭 窗口 ，Cancel 按钮 放弃 所 做 的 修改 ， 关 闭 窗口 。 


2. 删除 属性 


Weka 使 用 过 滤器 来 系统 性 地 更 改 数据 集 ， 因 此 过 滤器 属于 预 处 理工 具 。 

假如 要 求 去 除 weather.nominal.arff 数据 集 的 第 二 个 属性 ， 即 temperature 属性 。 删 除 属 
性 的 具体 步骤 如 下 。 

首先 ， 使 用 探索 者 界面 加 载 weather.nominal.arff 文件 。 在 预 处 理 面板 中 单 击 Choose 按 
钮 ， 打 开 一 个 分 层 菜单 ， 如 图 2.25 所 示 。 
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图 2.25 过 滤器 分 层 菜 单 


适合 本 例 要 求 的 过 滤器 称 为 Remove ， 全 称 是 weka filters.unsupervised. 
attribute.Remove。 从 名 称 上 可 以 看 出 ， 过 滤器 组 织 成 层次 结构 ， 根 为 weka， 往 下 继续 分 为 
unsupervised( 无 监督 ) 和 supervised( 有 监督 ) 两 种 类 型 ， 前 者 要 求 设置 类 别 属性 ， 后 者 不 要 求 
设置 。 继 续 往 下 分 为 attribute( 属 性 ) 和 instance( 实 例 ) 两 种 类 型 ， 前 者 主要 处 理 有 关 属 性 的 
过 滤 ， 后 者 处 理 有 关 实 例 的 过 滤 。 

在 分 层 菜单 中 按照 weka \filters \unsupervised \attribute 路 径 ， 找 到 Remove 条 目 ， 单 
击 选择 该 过 滤器 。 这 时 ，Choose 按钮 右边 的 文本 输入 框 应 该 显示 Remove 字符 串 。 单 击 该 
文本 框 ， 打 开通 用 对 象 编辑 器 对 话 框 以 设置 参数 。 

在 attributeIndices 文本 框 内 输入 “2”， 如 图 2.26 所 示 。 单 击 OK 按钮 关闭 通用 对 象 编 
辑 器 对 话 框 。 这 时 ，Choose 按钮 右边 的 文本 框 应 该 显示 “Remove -R 2”， 含 义 是 从 数据 
集中 去 除 第 二 个 属性 。 单 击 该 文本 框 右边 的 Apply 按钮 使 过 滤器 生效 ， 应 该 看 到 原来 的 5 
个 属性 现在 变 为 4 个 ，temperature 属性 已 经 被 去 除 。 要 特别 说 明 的 是 ， 本 操作 只 影响 内 存 
中 的 数据 ， 不 会 影响 数据 集 文件 中 的 内 容 。 当 然 ， 变 更 后 的 数据 集 也 可 以 通过 单 击 Save 
按钮 并 输入 文件 名 另存 为 ARFF 格式 或 其 他 格式 的 新 文件 。 如 果 要 撤消 过 滤 操作 ， 请 单 击 
Undo 按钮 ， 撤 消 操作 也 只 会 影响 内 存 中 的 数据 。 

如 果 仅 需要 去 除 属性 ， 还 有 更 简单 并 且 效 果 一 样 的 方法 。 只 要 在 Attributes 子 面板 内 


选择 要 去 除 的 属性 ， 然 后 单 击 属性 列表 下 面 的 Remove 按钮 即 可 。 
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图 2.26 ”修改 过 滤器 选项 

3. 添加 属性 

启动 探索 者 界面 并 加 载 weather.nominal 数据 集 。 假 如 要 求 在 数据 集 倒数 第 二 个 属性 位 
置 添加 一 个 用 户 定 义 的 字段 ， 具 体操 作 步 又 如 下 。 

在 预 处 理 面板 上 单 击 Choose 按钮 ， 选 择 AddUserFields 过 滤器 。 然 后 单 击 Choose 按 
钮 旁 的 方 框 ， 在 通用 对 象 编辑 器 中 设置 AddUserFields 过 滤器 的 选项 。 单 击 New 按钮 ， 然 
后 设置 Attribute name( 属 性 名 称 ) 为 mode， 设 置 Attribute type( 属 性 类 型 ) 为 nominal， 不 设 
置 Date format( 日 期 格式 ) 和 Attribute value( 属 性 值 ) 两 个 字段 ， 如 图 2.27 所 示 。 


图 2.27 设置 AddUserFields 过 滤器 选项 


单 击 OK 按钮 结束 选项 设置 ， 并 在 预 处 理 面 板 上 单 击 Apply 按钮 应 用 过 滤器 。 这 时 ， 
应 该 看 到 Attributes 子 面板 的 属性 表格 中 看 到 多 出 来 一 个 mode 属性 。 如 果 单 击 Edit 按钮 打 
开 Viewer 窗口 ， 可 以 看 到 新 增 的 属性 并 没有 值 ， 因 此 ， 下 一 步 是 添加 标 称 属性 值 。 

再 次 单 击 Choose 按钮 ， 选 择 AddValues 过 滤器 。 按 照 图 2.28 所 示 设 置 标 称 属性 的 
标签 。 
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2.28 设置 标签 
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再 次 单 击 Edit 按钮 打开 Viewer 对 话 框 ， 如 图 2.29 所 示 。 可 以 看 到 ， 这 次 的 最 后 一 个 
属性 已 经 有 标 称 属性 标签 ， 可 以 随意 设置 一 些 值 ， 然 后 单 击 OK 按钮 关闭 对 话 框 。 
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2.29 ”编辑 属性 


注意 我 们 新 增 属性 的 位 置 ， 不 符合 要 求 的 倒数 第 二 个 属性 位 置 。 最 后 一 个 属性 一 般 是 
类 别 属 性 ， 需 要 把 第 五 个 属性 与 第 六 个 属性 对 换 一 下 。 读 者 是 否 知道 该 用 哪个 过 滤器 呢 ? 


忌 提示 :， 使 用 Reorder 过 滤器 ， 和 参数 为 “-R 1.2.3.4.6.5” ， 请 读者 自行 完成 。 
4. 离散 化 


如 果 数 据 集 包 含 数 值 属性 ， 但 所 用 的 学 习 方 案 只 能 处 理 标 称 型 属性 的 分 类 问题 ， 先 将 
数值 属性 进行 离散 化 是 必要 的 ， 这 样 就 能 使 学 习 方案 增加 处 理 数值 属性 的 能 力 ， 通 常 能 获 
得 较 好 的 效果 。 

有 两 种 类 型 的 离散 化 技术 一 一 无 监督 离散 化 和 有 监督 离散 化 ， 前 者 不 需要 也 不 关注 类 
别 属 性 值 ， 后 者 在 创建 间隔 时 考虑 实例 的 分 类 属性 值 。 离 散 化 数值 属性 的 直观 方法 是 将 值 
域 分 隔 为 多 个 预先 设 定 的 间隔 区 间 。 显 然 ， 如 果 分 隔 级 别 过 大 ， 将 会 混淆 学 习 阶 段 可 能 有 
用 的 差别 ， 如 果 分 级 算法 不 妥 ， 则 会 将 很 多 不 同类 别 的 实例 混合 在 一 起 影响 学 习 。Weka 
无 监督 离散 化 数值 属性 的 Java 类 是 weka.filters.unsupervised.attribute.Discretize， 它 实现 了 
等 宽 (默认 ) 和 等 频 两 种 离散 化 方法 。 

等 宽 离散 化 (或 称 为 等 宽 分 箱 ) 经 常 造 成 实例 分 布 不 均匀 ， 有 的 间隔 区 域内 ( 箱 内 ) 包 含 很 
多 个 实例 ， 但 有 的 却 很 少 甚至 没有 。 这 样 会 降低 属性 辅助 构建 较 好 决策 结果 的 能 力 。 通 常 
也 允许 不 同 大 小 的 间隔 区 域 存 在 ， 从 而 使 每 个 区 间 内 的 训练 实例 数量 相等 ， 这 样 的 效果 会 
好 一 些 ， 该 方法 称 为 等 频 离散 化 (或 称 为 等 频 分 箱 )， 其 方法 是 : 根据 数 轴 上 实例 样本 的 分 
布 将 属性 区 间 分 隔 为 预先 设 定数 量 的 区 间 。 如 果 观 察 结 果 区 间 的 直方 图 ， 会 发 现 其 形状 平 
直 。 等 频 分 箱 与 朴素 贝 叶 斯 学 习 方案 一 起 应 用 时 效果 较 好 。 但 是 ， 等 频 分 箱 也 没有 注意 实 
例 的 类 别 属 性 ， 仍 有 可 能 导致 不 好 的 区 域 划分 。 例 如 ， 如 果 一 个 区 域内 的 全 部 实例 都 属于 
一 个 类 别 ， 而 下 一 个 区 域内 除了 第 一 个 实例 外 都 属于 前 一 个 类 别 ， 其 余 的 实例 都 属于 另 一 
个 类 别 ， 那 么 ， 显 然 将 第 一 个 实例 包含 到 前 一 个 区 域 更 为 合理 。 

下 面 以 实例 说 明 这 两 种 方法 的 差异 。 首 先 ， 在 data 目录 中 查找 到 玻璃 数据 集 glass.arff 
文件 ， 并 将 它 加 载 至 探索 者 界面 ， 在 预 处 理 面板 中 查看 RI 属性 直方 图 ， 如 图 2.30 所 示 。 
实施 无 监督 离散 化 过 滤器 ， 分 别 使 用 等 宽 和 等 频 两 种 离散 化 方法 ， 即 首先 保持 Discretize 


的 全 部 选项 默认 值 不 变 ， 然 后 将 useEqualFrequency 选项 的 值 更 改 为 True。 得 到 离散 化 后 
对 应 的 RI 属性 直方 图 分 别 如 图 2.31 和 图 2.32 所 示 。 
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图 2.30 ”原始 的 RI 属性 直方 图 
从 图 2.31 和 图 2.32 容易 看 出 ， 等 宽 离散 化 将 数值 属性 从 最 小 值 到 最 大 值 之 间 平 均 分 
为 十 份 ， 因 此 每 一 份 所 包含 的 实例 数量 就 各 不 相等 ， 而 等 频 离 散 化 按 数值 属性 的 大 小 顺序 
将 全 部 实例 平均 分 为 十 份 ， 每 份 所 包含 的 实例 数量 为 21 一 22， 因 此 ， 图 2.32 中 的 直方 图 
大 致 等 高 。 
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图 2.31 等 宽 离 散 化 后 的 RI 属性 图 2.32 等 频 离散 化 后 的 RI 属性 
读者 可 能 会 形成 一 个 错觉 ， 等 频 离散 化 后 形成 的 直方 图 似乎 都 会 等 高 。 但 是 ， 如 果 等 
频 离散 化 Ba 属性 ， 再 检查 结果 ， 会 发 现 这 些 直方 图 严重 地 偏向 一 端 ， 也 就 是 根本 不 等 
频 ， 如 图 2.33 所 示 。 


Bi es 4 ee a Se ms ee Sas 
图 2.33 ”等 频 离散 化 后 的 Ba 属性 
这 又 是 为 什么 呢 ? 
仔细 观察 第 一 个 直方 图 的 标签 ， 其 值 为 (-inf-0.03] ， 即 区 间 大 于 负 无 穷 且 小 于 等 于 
0.03。 使 用 数据 集 编辑 器 打开 离散 化 前 的 原始 数据 集 ， 单 击 第 八 列表 头 ， 使 数据 集 按照 Ba 
属性 进行 排序 ， 可 以 看 到 ， 有 176 个 实例 的 Ba 属性 值 都 等 于 0.0， 由 于 这 些 值 都 完全 相 
同 ， 没 有 办 法 将 它们 分 开 。 这 就 是 图 2.33 中 直方 图 严重 地 偏向 一 端的 根本 原因 ， 如 图 2.34 
所 示 。 
读者 可 自行 检查 Fe 属性 ， 验 证 是 否 为 同样 的 原因 。 
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2.34 ”原始 数据 集 


总 结 : 一 般 情况 下 ， 等 频 离散 化 后 直方 图 大 致 等 高 。 但 如 果 有 很 多 实例 的 值 都 完全 相 
频 离散 化 也 没 法 做 到 “等 频 ” 
尝试 有 监督 的 离散 化 技术 。 有 监督 的 离散 化 竭力 构建 一 种 间 阳 ， 虽 然 各 个 间隔 之 


间 的 分 类 分 布 各 不 相同 ， 但 间隔 内 的 分 布 保持 一 致 。Weka 有 监督 的 离散 化 数值 属性 的 
Java 类 的 全 路 径 名 称 为 weka.filters.supervised.attribute.Discretize。 首 先 ， 定 位 到 data 目录 


下 的 
图 2.35 


请 


关 都 已 


这 尾 花 数 据 集 ， 加 载 iris.arff 文件 ， 施 加 有 监督 的 离散 化 方案 ， 观 察 得 到 的 直方 图 如 


所 示 。 


图 2.35 有 监督 离散 化 后 的 直方 图 


sp 要 下 ， 图 2.35 中 哪 一 个 经 过 离散 化 后 的 属性 最 具有 预测 能 力 ? 
然 ， 只 有 petallength( 花 办 长 ) 和 petalwidth( 花 办 宽 ) 最 具 竞 争 力 ， 因 为 它们 的 每 种 分 
笃 接 近 为 同一 种 颜色 。 再 经 仔细 对 比 发 现在 前 者 中 ， 有 1 个 virginica 实例 错 分 到 


versicolor 中 ， 有 6 个 实例 versicolor 错 分 到 virginica 中 ， 因 此 共有 7 个 错 分 的 实例 ， 而 后 


者 ， 
P， 因 
E 力 。 

通 
有 序 的 
除 


ba 


器 


只 有 5 个 virginica 实例 错 分 到 versicolor 中 ， 有 1 个 versicolor 实例 错 分 到 virginica 


此 共有 6 个 错 分 的 实例 。 从 而 得 出 结论 : 离散 化 后 的 petalwidth 属性 最 具有 预测 


常 将 离散 化 后 的 属性 编码 为 标 称 属性 ， 每 一 个 范围 给 定 一 个 值 。 然 而 ， 因 为 范围 是 
， 离 散 化 后 的 属性 实际 上 是 一 个 有 序 标 量 。 
了 创建 多 元 属性 外 ， 有 监督 和 无 监督 两 种 离散 化 过 滤器 都 能 创建 二 元 属性 ， 只 要 将 


选项 makeBinary 设置 为 True 即 可 。 图 2.36 就 是 有 监督 的 离散 化 方案 创建 二 元 属性 后 得 到 


的 结果 。 
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图 2.36 有 监督 二 元 离散 化 后 的 直方 图 


将 图 2.36 和 图 2.35 做 一 个 比较 ， 便 知道 二 元 属性 就 是 每 个 属性 离散 化 后 只 有 两 种 编 
码 。 初 看 起 来 ， 这 样 做 似乎 没有 什么 用 处 。 由 于 还 有 一 些 知识 没有 介绍 ， 后 文 “ 深 入 研究 
离散 化 ”小 节 再 讨论 这 个 问题 。 


2.3 分 类 


分 类 就 是 得 到 一 个 分 类 函数 或 分 类 模型 ( 即 分 类 器 )， 通 过 分 类 器 将 未 知 类 别 的 数据 对 
象 映射 到 某 个 给 定 的 类 别 。 

数据 分 类 可 以 分 为 两 步 。 第 一 步 建立 模型 ， 通 过 分 析 由 属性 描述 的 数据 集 ， 来 建立 反 
映 其 特性 的 模型 。 该 步骤 也 称 作 有 监督 的 学 习 ， 基 于 训练 集 而 导出 模型 ， 训 练 集 是 已 知 类 
别 标签 的 数据 对 象 。 第 二 步 使 用 模型 对 数据 对 象 进行 分 类 。 首 先 评估 模型 的 分 类 准确 度 或 
其 他 指标 ， 如 果 可 以 接受 ， 才 使 用 它 来 对 未 知 类 别 标签 的 对 象 进行 分 类 。 

预测 的 目的 是 从 历史 数据 记录 中 自动 推导 出 对 给 定数 据 的 推广 描述 ， 从 而 能 够 对 事先 
未 知 类 别 的 数据 进行 预测 。 分 类 和 回归 是 两 类 主要 的 预测 问题 ， 分 类 是 预测 离散 的 值 ， 回 
归 是 预测 连续 值 。 

Weka 提供 分 类 面板 来 构建 分 类 器 ， 如 图 2.37 所 示 。 


me 


图 2.37 分 类 面板 
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下 面 分 别 介绍 分 类 面板 的 功能 。 


2.3.1 分 类 器 选择 


在 分 类 面板 的 最 上 部 是 Classifier( 分 类 器 ) 子 面板 ， 子 面板 内 有 一 个 Choose 按钮 和 一 个 
文本 框 。 按 钮 用 于 选择 Weka 提供 的 分 类 器 ; 文本 框 用 于 显示 当前 选择 的 分 类 器 的 名 称 和 
选项 。 单 击 文本 框 会 弹出 一 个 通用 对 象 编辑 器 对 话 框 ， 与 过 滤器 的 对 象 编辑 器 对 话 框 的 功 
能 一 样 ， 可 以 用 来 设置 当前 分 类 器 的 选项 。 右 击 (或 用 Alt + Shift+ 单 击 ) 分 类 器 文本 输入 
框 ， 就 会 弹出 一 个 菜单 ， 选 择 菜单 项 可 以 让 用 户 修改 设置 ， 或 将 当前 设置 的 字符 串 复制 到 
剪贴 板 ， 或 直接 输入 设置 字符 串 ， 使 用 方法 与 过 滤器 的 相似 。 

在 分 类 面板 的 左 部 有 Test options( 测 试 选项 ) 子 面板 。 该 子 面板 是 为 了 设置 测试 模式 ， 
将 设置 的 选项 应 用 到 当前 选择 的 分 类 器 中 。 测 试 模 式 分 为 以 下 四 种 。 

(1) Use training set( 使 用 训练 集 )。 直 接 将 训练 集 实例 用 于 测试 ， 评 估 分 类 器 预测 类 别 的 
性 能 。 

(2) Supplied test set( 提 供 测 试 集 )。 从 一 个 文件 中 加 载 一 组 实例 ， 评 估 分 类 器 预测 类 别 
的 性 能 。 单 击 Set 按钮 会 弹出 一 个 对 话 框 ， 允 许 用 户 选择 进行 测试 的 文件 。 

(3) Cross-validation( 交 叉 验 证 )。 通 过 交叉 验证 评价 分 类 器 ， 在 提示 为 Folds 的 文本 框 中 
输入 交叉 验证 的 折 数 。 

(4) Percentage split( 按 比例 分 割 )。 在 数据 集中 ， 取 出 特定 百分比 的 数据 用 于 训练 ， 其 
余 的 数据 用 于 测试 ， 评 价 分 类 器 预测 分 类 的 性 能 。 取 出 的 数据 量 取决 于 用 户 在 “%” 文 本 
框 中 输入 的 值 。 

无 论 使 用 哪 种 测试 模式 作为 评估 方法 ， 输 出 模型 始终 从 全 部 训练 数据 构建 而 得 。 更 多 
的 测试 选项 可 以 通过 单 击 More options 按钮 进行 设置 ， 如 图 2.38 所 示 。 


[ei otiens = 
Butpst st 


S Output por-class stats 


Output wntropy evaluation nensures 

Output confasion eutrix 

FD Store predictiens for visualizetion 

ostat pdiction Go en | 
TT Cost-sensitive evaloation = 


Bandon serd far I / splith 


厂 reserve order for % Split 
Output soures coae [miss 


| 
2.38 更 多 测试 选项 
更 多 的 测试 选项 解释 如 下 。 


(1) Output model( 输 出 模型 )。 输 出 通过 完整 训练 集 得 到 的 分 类 模型 ， 以 便 能 够 浏览 、 
可 视 化 等 。 默 认 选择 此 选项 。 


(2) Output per-class stats( 输 出 每 个 类 别 的 统计 信息 )。 输 出 每 个 分 类 的 查 准 率 / 查 全 率 以 
及 True / False 的 统计 信息 。 默 认 选择 此 选项 。 

(3) Output entropy evaluation measures( 输 出 炉 评 估 度 量 )。 输 出 中 包括 炉 评 估 度 量 。 默 
认 不 选择 此 选项 。 

(4) Output confusion matrix( 输 出 混淆 矩阵 )。 输 出 中 包含 分 类 器 预测 得 到 的 混淆 矩阵 。 
默认 选择 此 选项 。 

(5) Store predictions for visualization( 存 储 预测 以 便 可 视 化 )。 保 存 分 类 器 的 预测 结果 ， 
以 便 用 于 可 视 化 。 默 认 选 择 此 选项 。 

(6) Output predictions( 输 出 预测 )。 输 出 预测 的 评估 数据 。 请 注意 ， 在 交叉 验证 的 情况 
下 ， 实 例 序 号 不 对 应 于 其 在 数据 集中 的 位 置 。 

(7) Output additional attributes( 输 出 额外 的 属性 )。 如 果 伴 随 预 测 还 需要 输出 额外 的 属性 
(如 ， 跟 踪 错 误 分 类 的 ID 属性 )， 可 以 在 这 里 指定 该 属性 的 索引 。Weka 通常 支持 指定 范 
围 ，first 和 last 也 是 有 效 的 索引 ， 例 如 : “first-3,6,8,12-last”。 

(8) Cost-sensitive evaluation( 成 本 敏感 评估 )。 成 本 矩阵 用 于 评估 错误 率 。Set 按钮 允许 
用 户 指定 所 使 用 的 成 本 和 矩阵。 

(9) Random seed for XVal / % Split(XVal / % 分 割 的 随机 种 子 )。 为 了 评估 目的 而 划分 数 
据 之 前 ， 指 定 将 数据 进行 随机 化 处 理 的 随机 种 子 。 

(10) Preserve order for % Split( 保 持 顺 序 按 百分比 分 割 )。 将 数据 划分 为 训练 集 和 测试 集 
之 前 禁止 随机 化 ， 即 保持 原来 的 顺序 。 

(11) Output source code( 输 出 源 代 码 )。 如 果 分 类 器 能 够 输出 所 构建 模型 的 Java 源 代 
码 ， 可 以 在 这 里 指定 类 名 。 可 以 在 Classifier output( 分 类 器 输出 ) 区 域 打印 代码 。 

在 Weka 中 ， 进 行 训练 后 的 分 类 器 用 于 预测 某 个 单一 的 类 别 属性 ， 这 就 是 预测 的 目 
标 。 一 些 分 类 器 只 能 学 习 标 称 型 类 别 的 分 类 (分 类 问题 )， 一 些 分 类 器 只 能 学 习 数 值 型 类 别 
的 分 类 (回归 问题 )， 还 有 一 些 分 类 器 能 学 习 两 者 。 

默认 情况 下 ， 数 据 集 的 最 后 一 个 属性 是 类 别 属性 。 如 果 想 训练 分 类 器 来 预测 其 他 属 
性 ， 单 击 Test options 子 面 板 下 面 的 下 拉 列 表 框 ， 选 择 其 他 属性 作为 类 别 属性 。 


2.3.2 分 类 器 训练 


设置 好 分 类 器 、 测 试 选项 和 分 类 属性 后 ， 单 击 Start 按钮 就 启动 学 习 过 程 。 在 Weka 忙 
于 训练 分 类 器 的 同时 ， 小 鸟 会 站 起 来 左右 走动 。 用 户 随时 可 以 单 击 Stop 按钮 终止 训练 

训练 结束 后 ， 右 侧 的 分 类 器 输出 区 域 会 显示 训练 和 测试 结果 的 文字 描述 ， 如 图 2.39 所 
示 。 同 时 ， 在 Result list( 结 果 列 表 ) 中 会 出 现 一 个 新 条 目 ， 后 文 再 谈 结果 列表 ， 先 仔细 分 析 
分 类 器 输出 的 文字 描述 。 
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=—= Run information 一 一 


Scheme: weka.classifiers.trees.J48 -C 0.25 -M2 
Relation: iris 
Instances: 。 150 
Attributes: 5 
sepallength 
sepalwidth 
petallength 
petalwidth 
class 
Test mode: 。 10-fold cross-validation 


=== Classifier model (full training set) = 一 


J48 pruned tree 


petalwidth <= 0.6: Iris-setosa (50.0) 
petalwidth > 0.6 

1 petalwidth <= 1.7 

1 | petallength <= 4.9: Iris-versicolor (48.0/1.0) 
| | petallength > 4.9 

| | | petalwidth <= 1.5: Iris-virginica (3.0) 

1 1 1 petalwidth > 1.5: Iris-versicolor (3.0/1.0) 
1 petalwidth > 1.7: Iris-virginica (46.0/1.0) 


Number of Leaves : 5 


Size of the tree : 9 


Time taken to build model: 0.03 seconds 


=== Stratified cross-validation === 
=== Summary = 一 


Correctly Classified Instances 144 36 二 
Incorrectly Classified Instances 6 4 二 
Kappa statistic 0.94 

Mean absolute error 0.035 

Root mean squared error 0.1586 

Relative absolute error 7.8705 二 

Roor relative squared error 33.6353 $ 

Coverage of cases (0.95 level) 96.6667 二 

Mean rel. region size (0.95 level) 33.7778 $ 

Total Number of Instances 150 


=== Detailed Accuracy By Class =—= 


TB Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class 


0.98 0 1 0.98 0.99 0.985 0.99 0.987 Iris-setosa 

0.94 0.03 0.94 0.94 0.94 0.91 0.952 0.88 Iris-versicolor 

0.96 0.03 0.941 0.96 0.95 0.925 0.961 0.905 Iris-virginica 
Weighted Avg. 0.96 0.02 0.96 0.96 0.96 0.94 0.968 0.924 


=== Confusion Matrix === 


a b c <-- classified as 
49 1 01 a= Iris-setosa 
047 3 1 b= Iris-versicolor 
0 248 1 c= Iris-virginica 


图 2.39 分 类 器 输出 示例 


2.3.3 ”分 类 器 输出 
拖 动 分 类 器 输出 区 域 右 侧 的 滚动 条 ， 可 以 浏览 全 部 结果 文本 。 在 文本 区 域 中 单 


鼠标 


Y 


左 键 的 同时 ， 按 住 Alt 和 Shift 键 ， 会 弹出 一 个 对 话 框 ， 可 以 以 各 种 不 同 的 格式 (目前 支持 
BMP、JPEG、PNG 和 EPS) 保 存 所 显示 的 输出 。 当 然 ， 也 可 以 调整 探索 者 窗口 的 大 小 ， 得 
到 更 大 的 显示 面积 。 输 出 分 为 以 下 几 个 部 分 。 

(1) Run information( 运 行 信息 )。 提 供 处 理 过 程 所 涉及 的 信息 列表 ， 如 学 习 方案 及 选项 
(Scheme)、 关 系 名 (Relation)、 实 例 (Instances)、 属 性 (Attributes) 和 测试 模式 (Test mode)。 

(2) Classifier model (full training set)( 分 类 器 模型 (完整 的 训练 集 ))。 完 整训 练 数据 生成 的 
分 类 模型 的 文字 表述 。 本 例 选择 J48 决策 树 构 建 分 类 模型 ， 因 此 以 文字 方式 描述 决策 树 。 
如 果 选 择 其 他 分 类 器 模型 ， 则 显示 相应 的 文字 表述 。 

(3) 根据 所 选择 的 测试 模式 ， 显 示 不 同文 字 。 例 如 ， 如 果 选 择 十 折 交 叉 验 证 ， 显 示 
Stratified cross-validation; 如 果 选 择 使 用 训练 集 ， 显 示 Classifier model (full training set)， 等 
等 。 由 于 评估 内 容 较 多 ， 将 结果 分 解 显示 如 下 。 

@ Summary( 总 结 )。 一 个 统计 列表 ， 根 据 所 选择 的 测试 模式 ， 总 结 分 类 器 在 预测 实例 
真实 分 类 的 准确 度 。 其 中 : 

e@ ”Correctly Classified Instances( 正 确 分 类 的 实例 )， 显示 正确 分 类 的 实例 的 绝对 数量 

和 百分比 。 
e@ ”Incorrectly Classified Instances( 错 误 分 类 的 实例 ): 显示 错误 分 类 的 实例 的 绝对 数 
量 和 百分比 。 

e ”Kappa statistic(kappa 统计 ): 显示 kappa 统计 量 ，[0,1] 范 围 的 小 数 。kappa 统计 指 
标 用 于 评判 分 类 器 的 分 类 结果 与 随机 分 类 的 差异 度 。K=1 表明 分 类 器 完全 与 随机 
分 类 相 异 ，K=0 表明 分 类 器 与 随机 分 类 相同 ( 即 分 类 器 没有 效果 )，K=-1 表明 分 类 
器 比 随机 分 类 还 要 差 。 一 般 来 说 ，Kappa 统计 指标 的 结果 是 与 分 类 器 的 AUC 指 
标 以 及 准确 率 成 正 相 关 的 ， 所 以 该 值 越 接近 1 越 好 。 

Mean absolute error( 平 均 绝 对 误差 ): 显示 平均 绝对 误差 ，[0,1] 范 围 的 小 数 。 

Root mean squared error( 均 方 根 误差 ); 显示 均 方 根 误 差 ，[0,1] 范 围 的 小 数 。 
Relative absolute error( 相 对 绝对 误差 ): 显示 相对 绝对 误差 ， 百 分 数 。 

Root relative squared error( 相 对 均 方 根 误差 ):， 显示 相对 均 方 根 误差 ， 百 分 数 。 
Coverage of cases (0.95 level)( 案 例 的 覆盖 度 ): 显示 案例 的 覆盖 度 ， 该 值 是 分 类 器 
使 用 分 类 规则 对 全 部 实例 的 覆盖 度 ， 百 分 数 越 高 说 明 该 规则 越 有 效 。 

@ ”Mean rel. region size (0.95 level) (平均 相对 区 域 大 小 ): 显示 平均 相对 区 域 大 小 ， 

百分数 。 

e@ ”Total Number of Instances( 实 例 总 数 ): 显示 实例 总 数 。 

@ Detailed Accuracy By Class( 按 类 别 的 详细 准确 性 )。 按 每 个 类 别 分 解 的 更 详细 的 分 
类 器 的 预测 精确 度 。 结 果 以 表格 形式 输出 ， 其 中 ， 表 格 列 的 含义 如 下 。 

e ”TP Rate( 真 阳性 率 ): 显示 真 阳 性 率 ，[0.1] 范 围 的 小 数 。 

e。 ”FP Rate( 假 阳性 率 ): 显示 假 阳性 率 ，[0.1] 范 围 的 小 数 。 另 外 ， 常 使 用 TN 和 FN 

分 别 代表 真 阴 性 率 和 假 阴 性 率 。 
e@ Precision( 查 准 率 ): 显示 查 准 率 ，[0,1] 范 围 的 小 数 。 查 准 率 是 衡量 检索 系统 拒 受 非 


i , . , ”检索 到 的 相关 的 文档 量 TP 
EE 息 仙台 E 八 : 一 = o 
相关 信息 的 能 力 ， 计 算 公 式 为 : Precision 从 表 到 的 文档 总 最 Tp 
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e@ ”Recall( 查 全 率 ): 显示 查 全 率 ，[0,1] 范 围 的 小 数 。 查 全 率 是 衡量 检索 系统 检 出 相关 
ee _ 检索 到 的 相关 的 文档 量 ”TP 
言 息 的 能 力 ， 计 算 公 式 为 : Recall = 全 部 相关 的 文档 总 重 
e “上 -Measure(GE 度量 ): 显示 下 度量 值 ，[0,1] 范 围 的 小 数 。F 度量 是 查 准 率 和 查 全 率 的 调 
和 平均 数 ， 其 计算 公式 为 。F-Measure = 
eMCC(The Matthews Corelation Coefficient，Matthews 相关 系数 )， 显示 Matthews 相关 系 
数 ，[0,1] 范 围 的 小 数 。 这 是 一 个 针对 二 元 分 类 的 有 趣 性 能 指标 ， 特 别 是 各 个 类 别 在 数量 上 
不 平衡 时 。 其 计算 公式 为 : MCC = IN_FPxEN  ____.., 
VTP+FP)x(TP+FN)x(TN+FP)x(IN+FN) 
e。 ROC Area( 接 受 者 操作 特征 曲线 面积 ): 显示 ROC 面积 ，[0.1] 范 围 的 小 数 。ROC 
面积 一 般 大 于 0.5， 这 个 值 越 接近 1， 说 明 模 型 的 分 类 效果 越 好 。 这 个 值 在 0.5 一 
0.7 时 有 较 低 准确 度 ， 在 0.7 一 0.9 时 有 一 定 准确 度 ， 在 0.9 以 上 时 有 较 高 准确 度 。 
如 果 该 值 等 于 0.5， 说 明 分 类 方法 完全 不 起 作用 ， 没 有 价值 ， 而 小 于 0.5 时 不 符合 
真实 情况 ， 在 实际 中 极 少 出 现 。 
e ”PRC Area( 查 准 率 / 查 全 率 曲 线 下 面积 ): 显示 PRC 面积 ，[0,1] 范 围 的 小 数 。 
@ Class( 类 别 ): 显示 类 别 标签 。 
表格 前 面 几 行 按 类 别 显示 预测 精确 度 ， 最 后 一 行 是 各 个 类 别 的 加 权 平 均 (Weighted 
Arvg.)。 
G@ Confusion Matrix( 混 淆 和 矩阵)。 显 示 每 一 个 分 类 有 多 少 个 实例 。 和 矩阵 元 素 显 示 测 试 的 
样本 数 ， 行 为 实际 的 类 别 ， 列 为 预测 的 类 别 。 
@ Source code (optional) ( 源 代 码 (可 选 )。 如 果 用 户 在 More options( 更 多 选项 ) 对 话 框 
中 选择 Output source code( 输 出 源 代码 )， 在 此 位 置 显 示 Java 源 代码 。 
前 文 提 到 过 ， 一 个 分 类 器 训练 完成 后 ， 结 果 列 表 中 就 会 出 现 一 个 条 目 ， 再 训练 一 次 ， 
又 会 再 出 现 一 个 条 目 。 单 击 不 同 条 目 ， 可 以 来 回 切换 显示 各 次 已 经 生成 的 结果 。 按 Delete 
键 可 以 从 结果 中 删除 选 定 的 条 目 。 右 击 任意 一 个 条 目 ， 会 弹出 一 个 上 下 文 菜单 ， 里 面包 含 
如 下 菜单 项 。 
(1) View in main window( 在 主 窗口 中 查看 )。 在 主 窗口 中 显示 输出 ， 与 单 击 该 条 目的 功 
能 相同 。 
(2) View in separate window( 在 单独 的 窗口 中 查看 )。 打 开 一 个 新 的 独立 窗口 ， 查 看 


rs 


(3) Save result buffer( 保 存 结果 缓冲 区 )。 弹 出 一 个 对 话 框 ， 将 文本 输出 保存 为 文本 
文件 。 

(4) Load model( 加 载 模型 )。 从 二 进 制 文件 中 加 载 一 个 预先 训练 过 的 模型 对 象 。 

(5) Save model( 保 存 模型 )。 将 模型 对 象 保存 为 二 进 制 文件 ， 对 象 以 Java 序列 化 对 象 的 
格式 保存 。 

(6) Re-evaluate model on current test set( 重 新 评估 当前 的 测试 集 模型 )。 使 用 在 Supplied 
test set( 提 供 测 试 集 ) 选 项 下 通过 Set 按钮 设置 的 数据 集 ， 测 试 已 构建 好 的 模型 性 能 。 

(7) Visualize classifier errors( 可 视 化 分 类 器 错误 )。 弹 出 一 个 可 视 化 的 窗口 ， 将 分 类 结果 


以 散 点 图 形式 表示 。 正 确 分 类 的 实例 表示 为 小 十 字 ， 而 错误 分 类 的 实例 表示 为 小 方块 。 

(8) Visualize tree or Visualize graph( 可 视 化 树 或 可 视 化 图 形 )。 如 果 分 类 结果 可 以 可 视 
化 ， 如 决策 树 或 贝 叶 斯 网 络 ， 选 择 本 菜单 项 会 弹出 一 个 分 类 器 模型 结构 的 图 形 化 表示 。 如 
果 已 经 构建 了 一 个 贝 叶 斯 分 类 器 ， 图 形 可 视 化 选项 才 会 出 现 。 在 树 可 视 化 工具 中 ， 可 以 右 
击 空白 区 域 带 出 上 下 文 菜单 ， 通 过 拖 动 鼠标 移动 图 形 ， 单 击 某 个 节点 查看 训练 实例 ， 
“Ctrl 键 + 单 击 ” 缩 小 视图 ，“Shift 键 + 拖 动 一 个 方 框 ”放大 视图 。 图 形 可 视 化 工具 的 使 用 
很 直观 、 友 好 。 

(9) Visualize margin curve( 可 视 化 边缘 曲线 )。 生 成 散 点 图 ， 说 明 预 测 边 缘 。 将 边缘 定义 
为 实际 的 分 类 预测 概率 与 预测 为 其 他 类 别 的 最 高 概率 之 间 的 差 值 。 例 如 ， 通 过 增加 训练 数 
据 的 边缘 ，Boosting 算法 可 以 在 测试 数据 上 达到 更 好 的 性 能 。 

(10) Visualize threshold curve( 可 视 化 阔 值 曲线 )。 通 过 改变 不 同 分 类 之 间 的 阔 值 得 到 的 
预测 ， 生 成 说 明 权 衡 (trade-offs) 的 散 点 图 。 例 如 ， 默 认 阔 值 为 0.5， 预 测 概率 为 “ 正 ” 必 须 
是 预测 为 “ 正 ” 概 率 大 于 0.5 的 实例 。 该 散 点 图 可 用 于 对 准确 率 / 查 全 率 进行 权衡 的 可 视 
化 ， 如 ROC 曲线 分 析 ( 真 阳性 率 vs 假 阳 性 率 ) 和 其 他 类 型 的 曲线 。 

(11) Visualize cost curve( 可 视 化 成 本 曲线 )。 产 生 散 点 图 ， 给 出 一 个 明确 表述 的 预期 
成 本 。 

(12) Plugins( 插 件 )。 当 有 可 视 化 插件 可 供 选择 (默认 值 为 : 无 ) 时 才 会 出 现 该 菜单 项 。 


2.3.4 分 类 算法 介绍 


分 类 和 回归 是 数据 挖掘 和 机 器 学 习 中 极为 重要 的 技术 ， 分 类 是 利用 已 知 的 观测 数据 构 
建 一 个 分 类 模型 ， 常 常 称 为 分 类 器 ， 来 预测 未 知 类 别 的 对 象 的 所 属 类 别 。 分 类 和 回归 的 不 
同 点 在 于 ， 分 类 的 预测 输出 是 离散 型 类 别 值 ， 而 回归 的 预测 输出 是 连续 型 数值 ， 因 此 ， 
Weka 将 分 类 和 回归 都 归 为 同一 类 算法 。 

本 节 介绍 常用 的 分 类 算法 ， 包 括 线性 回归 、 决 策 树 、 决 策 规 则 、 支 持 向 量 机 ， 将 贝 叶 
斯 网 络 和 神经 网 络 放 到 第 六 章 讲解 。 由 于 Weka 实现 的 分 类 算法 数量 众多 ， 特 点 各 异 ， 无 
法 在 较 短篇 幅 中 讲 清楚 ， 读 者 可 根据 自己 的 需要 查阅 附录 介绍 和 相关 资料 。 


1. 线性 回归 


线性 回归 (Linear Regression) 是 利用 数理 统计 中 的 回归 分 析 ， 来 确定 多 个 变量 之 间 相 互 
依赖 的 定量 关系 的 一 种 统计 分 析 方 法 ， 应 用 十 分 广泛 。 具 体 来 说 ， 它 利用 称 为 线性 回归 方 
程 的 最 小 二 乘 函 数 对 一 个 或 多 个 自 变量 ( 常 表示 为 x) 和 一 个 标量 型 因 变量 ( 常 表示 为 y) 之 间 
的 关系 进行 建 模 ， 这 种 函数 是 一 个 或 多 个 称 为 回归 系数 的 模型 参数 的 线性 组 合 。 只 涉及 一 
个 自 变量 的 称 为 简单 线性 回归 ， 涉 及 多 个 自 变量 的 称 为 多 元 线性 回归 。 
线性 回归 的 主要 目标 是 用 于 预测 。 线 性 回归 使 用 观测 数据 集 的 y 值 和 x 值 来 拟 合 一 个 
预测 模型 ， 构 建 这 样 一 个 模型 后 ， 如 果 给 出 一 个 新 的 x 值 ， 但 没有 给 出 对 应 的 y 值 ， 这 时 
就 可 以 用 预测 模型 来 预测 y 值 。 

给 定 p 维 数 据 集 po az: 世 =1L…:N ， 线 性 回归 模型 假设 因 变量 罗 和 自 变量 之 
间 的 是 线性 关系 。 即 


B=W+W t+ WN = XW = 
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其 中 ,假定 x。=1， 将 p 维 扩展 为 p+l 维 。 粗 体 字 表示 向 量 ， 上 标 了 表示 抢 阵 转 置 ，m 是 
回归 系数 的 向 量 ，xzw 是 向 量 x7 和 w 的 内 积 。 
当 p=1 时 ， 上 式 可 简单 表示 为 如 下 的 一 元 线性 回归 的 形式 。 
p=wW+wx 
其 中 ， 假 定 y 的 方差 为 常数 ， 回 归 系数 w, 和 w, 对 应 直线 在 纵 轴 的 截 距 和 和 斜率 ， 可 以 使 用 
下 列 算 式 来 估计 。 


YG -Dy _D) 
YG SR 


= 二 


WW 


Ww 


其 中 ，T 是 x,%,…,xy 的 均值 ， 了 是 yy,y,,…,yy 的 均值 。 
通过 N 个 数据 点 对 回归 方程 进行 拟 合 ， 估 计 出 回归 系数 就 得 到 一 条 直线 ， 通 过 这 条 直 
线 就 可 以 预测 未 知 数据 点 的 目标 变量 的 值 ， 如 图 2.40 所 示 。 


图 2.40 一 元 线性 回归 


从 第 1 章 可 以 知道 ，CPU 数据 集 就 非常 适合 用 线性 回归 进行 处 理 。 当 拟 合 出 回归 公式 
之 后 ， 就 可 用 于 预测 新 测试 实例 的 CPU 性 能 。 


2. 决策 树 

决策 树 (Decision Tree) 是 一 种 预测 模型 ， 它 包括 决策 节点 、 分 支 和 叶 节 点 三 个 部 分 。 其 
中 ， 决 策 节点 代表 一 个 测试 ， 通 常 代表 待 分 类 样本 的 某 个 属性 ， 在 该 属性 上 的 不 同 测试 结 
果 代 表 一 个 分 支 ， 分 支 表示 某 个 决策 节点 的 不 同 取 值 。 每 个 叶 节点 存放 某 个 类 别 标签 ， 表 
示 一 种 可 能 的 分 类 结果 。 

使 用 训练 集 用 决策 树 算法 进行 训练 ， 经 过 训练 之 后 ， 学 习 方案 只 需要 保存 类 似 于 
图 2.41 的 树 型 结构 ， 而 不 像 最 近邻 学 习 等 消极 学 习 算 法 那样 ， 不 保存 模型 ， 只 有 在 需要 分 
类 时 才 去 查找 与 测试 样本 最 为 相近 的 训练 样本 。 决 策 树 对 未 知 样本 的 分 类 过 程 是 ， 自 决策 
树 根 节点 开始 ， 自 上 向 下 沿 某 个 分 支 向 下 搜索 ， 直 到 到 达 叶 节点 ， 叶 节点 的 类 别 标签 就 是 
该 未 知 样本 的 类 别 。 

对 于 如 图 2.41 所 示 的 决策 树 ， 假 如 有 一 个 新 的 未 知 样本 ， 属 性 值 如 下 : 


outlook = rainy, temperature = cool, humidity = high, windy = FALSE 


问 是 否 能 play? 


2.41 决策 树 示例 


按照 决策 树 的 分 类 过 程 ， 自 根 节点 outlook 开始 ， 由 于 outlook = rainy， 因 此 应 该 沿 着 
最 右边 的 分 支 向 下 搜索 ， 下 一 个 节点 是 windy， 由 于 windy = FALSE， 因 此 再 次 沿 着 最 右 
边 的 分 支 向 下 搜索 ， 遇 到 类 别 标签 为 yes 的 叶 节点 ， 因 此 推断 未 知 样本 的 类 别 标签 是 yes， 
即 可 以 play。 

决策 树 算法 通过 将 训练 集 划分 为 较 纯 的 子 集 ， 以 递归 的 方式 建立 决策 树 。 有 多 种 决策 
树 算法 ， 后 文 介绍 使 用 广泛 的 C4.5 和 CART 算法 。 

1) C4.5 算法 

C4.5 算法 是 澳大利亚 悉尼 大 学 Ross Quinlan 教授 于 1993 年 对 早先 的 ID3 算法 进行 改 
进而 提出 来 的 ，C4.5 算法 在 以 下 几 个 方面 对 ID3 算法 进行 了 改进 。 

(1) 能 够 处 理 连续 型 属性 和 离散 型 属性 的 数据 ; 

(2) 能 够 处 理 具有 缺失 值 的 数据 ; 

(3) 使 用 信息 增益 率 作为 决策 树 的 属性 选择 标准 ; 

(4) 对 生成 树 前 枝 ， 降 低 过 拟 合 。 

C4.5 算法 可 以 使 用 通用 的 称 为 TreeGrowth 的 决策 树 归纳 算法 作为 生长 树 算法 。 该 算 
法 的 输入 是 训练 集 E 和 属性 集 F。 算 法 递归 地 选择 最 佳 属性 以 划分 数据 ， 并 扩展 树 的 叶 节 
点 ， 直 到 满足 结束 条 件 。 算 法 伪 代 码 如 算法 2.1 所 示 。 


算法 2.1 决策 树 归纳 算法 框架 


TreeGrowth (E, F) 
if stopping cond(E, F) = true then 
leaf = createNode () 
leaf.label = Classify (E) 
return leaf 
else 
root = createNode () 
root.test cond = find best split(E, F) 
令 V= {v | Vv 是 root.test_cond 的 一 个 可 能 的 输出 } 
for each VE V do 
E,= {e | root.test cond(e) = Vv ande € E} 
child = TreeGrowth (E,, F) 
添加 child 为 root 的 子 节点 ， 并 将 边 (root 一 一 >chil1d) 标记 为 了 
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end for 
end if 
return root 


算法 所 使 用 的 函数 如 下 。 

(1) createNode() 函 数 为 决策 树 创建 新 节点 对 其 扩展 。 决 策 树 的 节点 要 么 有 一 个 测试 条 
件 ， 记 为 nodetest_cond， 要 么 有 一 个 类 别 标签 ， 记 为 node.label。 

(2) find_best_split0 函 数 确定 应 当选 择 哪个 属性 作为 划分 训练 记录 的 测试 条 件 。 可 以 使 
用 多 种 不 纯 性 度量 来 评估 划分 ， 以 选择 测试 条 件 。 常 用 度量 有 信息 粹 和 Gini 指标 等 。 

C4.5 使 用 的 度量 称 为 信息 增益 率 (GainRatio)， 是 信息 炉 的 变形 。 原 来 的 算法 直接 使 用 
信息 灼 增益 ， 会 因 某 属性 有 较 多 分 类 取 值 因而 导致 有 偏 大 的 信息 人 ， 从 而 更 容易 被 选择 
为 划分 节点 。 信 息 增 益 率 考虑 了 分 裂 信 息 的 “代价 ”， 能 够 部 分 抵消 属性 取 值 数量 带 来 的 
影响 ， 因 此 它 是 C4.5 对 ID3 算法 的 重要 改进 之 一 。 

(3) Classify0 函 数 确定 叶 节 点 的 类 别 标签 。 对 于 每 个 叶 节点 t， 令 p(i | 7?) 表示 该 节点 上 
属于 类 别 i 的 训练 记录 所 占 的 比例 ， 在 大 多 数 情况 下 ， 将 叶 节 点 指派 为 具有 多 数 记录 的 类 
别 ， 即 : 

leaflabel =argmaxp(il?) 


其 中 ， 操 作 argmax 返回 最 大 化 pG| 力 的 参数 i。 

(4) stopping_cond(O) 函 数 通 过 检查 是 否 所 有 的 记录 都 属于 同一 个 类 别 ， 或 者 都 具有 相同 
的 属性 值 ， 决 定 是 否 终止 决策 树 的 增长 。 终 止 递 归 函 数 的 另 一 种 方式 是 ， 检 查 记 录 数 是 否 
小 于 某 个 最 小 阔 值 。 

C4.5 算法 用 到 以 下 几 个 公式 。 

(1) 信息 


Entropy(S)=- > p, log, p, 
i=l 


其 中 ，S 为 训练 集 ，pX( 二 1,2,…,m) 为 具有 m 个 类 别 标签 的 类 别 属性 C 在 所 有 样本 中 出 现 的 
(2) 划分 信息 灶 
假设 用 属性 4 来 划分 8 中 的 数据 ， 计 算 属性 4 对 集合 5 的 划分 焙 值 Entropy4(S)。 
如 果 4 为 离散 型 ， 有 上 个 不 同 取 值 ， 则 属性 4 依据 这 上 个 不 同 取 值 将 8 划分 为 大 个 子 
集 {51,S2,…,S8}， 属 性 4 划分 $ 的 信息 炳 为 : 
Entropy,(S)= Se Entopy(s) 
其 中 ，|Sj 和 |S| 分 别 是 5; 和 S 中 包含 的 样本 个 数 。 
如 果 属 性 4 为 连续 型 数据 ， 则 按 属 性 4 的 取 值 递增 排序 ， 将 每 对 相 邻 值 的 中 点 看 作 可 
能 的 分 裂 点 ， 对 每 个 可 能 的 分 裂 点 ， 计 算 : 
lS. |s| 
Entropy,(S)= 一 Entropy(S, )+ 
四 四 
其 中 ，S 和 Sg 分 别 对 应 于 该 分 裂 点 划分 的 左右 两 部 分 子 集 ， 选 择 Entropy4(S) 值 最 小 的 分 裂 
点 作为 属性 4 的 最 佳 分 裂 点 ， 并 以 该 最 佳 分 裂 点 按 属 性 4 对 集合 S 的 划分 糖 值 作为 属性 4 


Entropy(S; ) 


划分 5 的 炉 值 。 

(3) 信息 增益 

按 属性 4 划分 数据 集 S 的 信息 增益 Gain(S,A) 为 样本 集 5 的 焙 减 去 按 属 性 4 划分 8 后 
的 样本 子 集 的 炳 。 


Gain(S, A) = Entropy(S)— Entropy,(S) 
(4) 分 裂 信息 
C4.5 引入 属性 的 分 裂 信 息 来 调节 信息 增益 。 


| |S,| 
SplitEC 人 = -ylog 
plitE(4) Zs 98 5] 
(5) 信息 增益 率 
Goinkatid(D = 
SplitE(A) 


信息 增益 率 将 分 裂 信息 作为 分 母 ， 属 性 取 值 数目 越 大 ， 分 裂 信 息 值 越 大 ， 从 而 部 分 抵 
消 了 属性 取 值 数目 所 带 来 的 影响 。 

下 面 以 天 气 数 据 集 (weathernominal.arff 文件 ) 为 例 ， 演 示 C4.5 算法 构建 决策 树 的 过 
程 。 天 气 数据 集 内 容 可 参见 第 1 章 。 

第 一 步 ， 计 算 所 有 属性 划分 数据 集 8 所 得 的 信息 增益 。 

令 5 为 天 气 数据 集 ， 有 14 个 样本 。 类 别 属性 play 有 2 个 值 {C1=yes，C2=no}。14 个 样 
本 中 ，9 个 样本 的 类 别 标签 取 值 为 yes，5 个 样本 的 类 别 标签 取 值 为 no。 即 ，Ci=yes 在 5 
中 出 现 的 概率 为 14，C2=no 出 现 的 概率 为 14。 因此 8 的 炳 为 : 


9 5 9 9 
Entropy(S) = Entropy| —,— |=— 0.94 
ntropy(S) = En op 全 癌 


一 A 
14 14 14 14 

下 面 计算 按 属性 4 划分 5 后 的 样本 子 集 的 信息 粹 。 

首先 看 属性 windy， 它 有 2 个 可 能 的 取 值 {weak, strong}， 将 S 划分 为 2 个 子 集 {5,， 
S52}， 取 值 为 weak 的 样本 子 集 S1 共 有 8 个 样本 ; 取 值 为 strong 的 样本 子 集 8 共有 6 个 
样本 。 

对 样本 子 集 S1,，play=yes 有 6 个 样本 ，play=no 有 2 个 样本 ， 则 : 


6 6 2 2 
Entropy(S,) = 8g; Bg 二 0.811 
对 样本 子 集 5S,，play=yes 有 3 个 样本 ，play=no 有 3 个 样本 ， 则 : 


入 3 3 3 
Entropy(S, ) = Te 6 三 } 
利用 属性 windy 划分 8 后 的 炉 为 
大 
Entropywaay (S)= Entropy(S, ) = Entropy(S, ) + 让 ! Entropy(S,) 
i=1 


= 二 Entropy(S 二 Entropy(S,) =0.371x0.811+0.428x1=0.891 


按 属 性 windy 划分 数据 集 8 所 得 的 信息 增益 值 为 
Gain(S, windy) = Entropy(S) — Entropywsy(S)= 0.94 一 0.891= 0.049 


同 理 ， 得 到 S 对 其 他 所 有 属性 的 信息 增益 ， 列 示 如 下 : 
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Gain(S, outlook) = 0.246 
Gain(S, temperature) = 0.029 
Gain(S, humidity) = 0.152 
第 二 步 ， 计 算 各 个 属性 的 分 裂 信 息 和 信息 增益 率 。 
以 outlook 属性 为 例 ， 取 值 为 overcast 的 样本 有 4 条 ， 取 值 为 rain 的 样本 有 5 条 ， 取 
值 为 sunny 的 样本 有 5 条 : 


5 5 4 4 5 5 
SplitE ,a =——1 = = =1.576 
Pe id pd a ld ta eid 
GainRatio or = Cainowo _044 
SplitE or 
同 理 ， 计 算 其 他 属性 的 信息 增益 率 。 
Gain 0.029 
GainRatio = 一 一 一 ee 一 一 一 一 0.019 
pom SplitE 5 
Gain 
GainRatio, dy 和 152 
“Y SplitE, 1 
Gain ， 
GainRatio = 一 saw -QOS -0.0497 
SplitE,,s, 0.985 


第 三 步 ， 将 信息 增益 率 取 值 最 大 的 那个 属性 作为 分 裂 节点 ， 因 此 最 初 选择 outlook 属 
性 作为 决策 树 的 根 节点 ， 产 生 3 个 分 支 ， 如 图 2.42 所 示 。 


SUDD Tain 
Overcast 


图 2.42 选择 第 一 个 决策 节点 


第 四 步 ， 对 根 决 策 节点 的 三 个 不 同 取 值 的 分 支 ， 递 归 调 用 以 上 方法 ， 求 子 树 ， 最 后 得 
到 的 决策 树 如 前 面 的 图 2.41 所 示 。 

C4.5 算法 还 对 生成 树 进行 剪 枝 ， 以 克服 过 拟 合 。 限 于 篇 幅 ， 就 不 展开 来 介绍 了 。 

C4.5 在 Weka 中 的 实现 是 J48 决策 树 ， 后 文 介绍 J48 的 使 用 。 

2) CART 算法 

CART(Classification and Regression Tree， 分 类 及 回归 树 ) 算 法 由 美国 斯 坦 福 大 学 和 加 州 
大 学 伯克利 分 校 的 Breiman 等 人 于 1984 年 提出 。CART 决策 树 采 用 二 元 递归 划分 方法 ， 能 
够 处 理 连 续 属 性 和 标 称 属性 作为 预测 变量 和 目标 变量 下 的 分 类 ， 当 输出 变量 是 标 称 属性 数 
据 时 ， 所 建立 的 决策 树 称 为 分 类 树 ， 用 于 预测 离散 标 称 类 别 。 当 输出 变量 为 数值 型 变量 
时 ， 所 建立 的 决策 树 称 为 回归 树 ， 用 于 预测 连续 数值 类 别 。 

CART 算法 同样 使 用 算法 2.1 所 示 的 决策 树 归 纳 算法 框架 ， 但 与 C4.5 算法 不 同 ， 


VY 


CART 为 二 又 分 支 ， 而 C4.5 可 以 为 多 叉 分 支 ; CART 的 输入 变量 和 输出 变量 可 以 是 分 类 型 
和 数值 型 ， 而 C4.5 的 输出 变量 只 能 是 分 类 型 ，CART 使 用 的 不 纯度 量 是 Gini 系数 ， 而 
C4.5 使 用 信息 增益 率 ; 另外 ， 两 者 对 决策 树 的 剪 梳 方 法 不 同 。 

CART 算法 使 用 Gini 系数 来 度量 对 某 个 属性 变量 测试 输出 的 两 组 取 值 的 差异 性 ， 理 想 
的 分 组 应 该 尽量 使 两 组 中 样本 输出 变量 取 值 的 差异 性 总 和 达到 最 小 ， 即 “纯度 ”最 大 ， 也 
就 是 使 两 组 输出 变量 取 值 的 差异 性 下 降 最 快 ，“ 纯 度 ” 增 加 最 快 。 

设 :为 分 类 回归 树 中 的 某 个 节点 ，Gini 系数 计算 公式 如 下 : 


GO=1-D PUID 
其 中 ,为 当前 属性 下 测试 输出 的 类 别 数 ，p0 | 六 为 节点 中 样本 测试 输出 取 类 别 j 的 


设 1 为 一 个 节点 ， 为 该 节点 的 一 个 属性 分 支 条 件 ， 该 分 枝条 件 将 节点 + 中 样本 分 别 
分 到 左 分 支 Sc 和 右 分 支 Sg 中 ， 称 : 


AG(ED) = GW -— sel Gr)-— ls 


Ty A | 

为 在 分 支 条 件 上 下 节点 1 的 差异 性 损失 。 其 中 ，G(D 为 划分 前 测试 输出 的 Gini 系数 ， 
|Sal 和 |Sz| 分 别 表 示 划 分 后 左右 分 支 的 样本 个 数 。 为 使 节点 上 尽 可 能 的 纯 ， 我 们 需 选 择 某 个 属 
性 分 支 条 件 上 < 使 该 节点 的 差异 性 损失 尽 可 能 大 。 用 上 (0D 表 示 所 考虑 的 分 支 条 件 上 的 全 体 ， 
则 选择 分 枝条 件 应 为 

Sr = Arg Max AG(S,7) 

对 于 CART 分 类 树 的 属性 选择 ， 针 对 属性 类 型 为 分 类 型 和 数值 型 ， 方 法 有 所 不 同 。 对 
于 分 类 型 属性 ， 由 于 CART 只 能 建立 二 叉 树 ， 对 于 取 多 个 值 的 属性 变量 ， 需 要 将 多 类 别 合 
并 成 两 个 类 别 ， 形 成 “ 超 类 ”， 然 后 计算 两 “ 超 类 ”下 样本 测试 输出 取 值 的 差异 性 ， 对 于 
数值 型 属性 ， 方 法 是 将 数据 按 升序 排序 ， 然 后 从 小 到 大 依次 以 相 邻 数值 的 中 间 值 作为 分 
隔 ， 将 样本 分 为 两 组 ， 并 计算 所 得 组 中 样本 测试 输出 取 值 的 差异 性 。 

CART 算法 使 用 的 剪 枝 方式 是 预 剪 枝 和 后 剪 枝 相 结合 ， 而 C4.5 算法 使 用 后 剪 枝 方式 。 

3. 基于 规则 的 分 类 器 

基于 规则 的 分 类 器 是 一 种 通过 使 用 一 组 判断 规则 来 对 记录 进行 分 类 的 技术 。 模 型 的 规 
则 使 用 析 取 范式 R=(G vrsv-…vn)， 其 中 ， 规 则 x; 的 形式 为 :(Condition,) 一 y;。 规 则 
左边 称 为 规则 前 件 (rule antecedenb ， 是 属性 测试 的 合 取 。 规 则 右边 称 为 规则 后 件 Gmule 
consequent)， 包 含 预测 类 别 yy;。 

分 类 规则 的 质量 可 以 用 覆盖 率 (coverage) 和 准确 率 (accuracy) 来 度量 。 给 定数 据 集 D 和 
分 类 规则 x :4 一 y， 规 则 的 履 盖 率 定义 为 D 中 触发 规则 x 的 记录 所 占 的 比例 。 准 确 率 定义 
为 触发 的 记录 中 列 别 标签 等 于 y 的 记录 所 占 的 比例 。 

为 了 构建 基于 规则 的 分 类 器 ， 需 要 提取 一 组 规则 来 识别 数据 集 属 性 和 类 别 标签 之 间 的 
关键 联系 。 提 取 分 类 规则 有 两 种 办 法 ， 第 一 种 是 直接 方法 ， 直 接 从 数据 中 提取 分 类 规则 。 
第 二 种 是 间接 方法 ， 从 决策 树 等 其 他 模型 中 进行 提取 。 
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算法 2.2 所 示 ， 算 法 开始 时 规则 表 R 为 空 ， 函 数 Learm-One-Rule 提取 类 别 y 覆盖 当前 训练 
记录 集 的 最 佳 规则 。 在 提取 规则 时 ， 类 别 y 的 所 有 训练 记录 都 视 为 正 例 ， 将 其 他 类 别 的 训 
练 记录 都 视 为 反例 。 如 果 一 个 规则 覆盖 大 多 数 正 例 ， 没 有 或 仅 覆 盖 极 少数 反例 ， 那 么 该 规 
则 可 取 。 一 旦 找到 这 样 的 规则 ， 就 删除 它 履 盖 的 训练 记录 ， 并 把 新 规则 追加 到 规则 表 R 的 
尾部 。 重 复 这 个 过 程 ， 直 到 满足 终止 条 件 。 然 后 ， 算 法 继续 产生 下 一 个 类 别 的 规则 。 
算法 2.2 顺序 覆盖 算法 
设 记 为 训练 记录 ，A 是 属性 - 值 对 的 集合 
设 页 为 类 别 的 有 序 集合 DA ,7 5} 
设 RR= 名 为 初始 规则 列表 
for 每 个 类 别 yeY 一 {y,} do 
while 终止 条 件 不 满足 do 
r<-Learn— One— Rule(E,A,y) 
从 五 中 删除 二 覆盖 的 训练 记录 
追加 工 到 规则 列表 尾部 : RRvr 
end while 


end for 


把 默认 规则 fy 插入 到 规则 列表 R 的 尾部 


规则 提取 的 间接 方法 主要 从 决策 树 中 提取 规则 。 过 程 是 ， 首 先 求 出 决策 树 ， 然 后 从 
每 一 个 叶子 节点 提取 出 来 一 个 规则 。 然 后 通过 一 些 优 化 标准 将 一 些 可 以 合并 的 规则 进行 
合并 。 

Weka 提供 多 种 基于 规则 的 分 类 器 。 其 中 ，JRip 分 类 器 实现 了 命题 规则 学 习 ， 重 复 增 
量 修剪 以 减少 产生 错误 (RIPPER)，RIPPER 是 由 William W. Cohen 提出 的 一 个 优化 版 本 的 
IREP。M5Rules 分 类 器 对 于 回归 问题 使 用 分 治 策略 生成 决策 表 。 在 每 一 次 迭代 中 ， 使 用 
M5 并 将 “最 好 ”叶子 构成 规则 ， 以 构建 模型 树 。PART 分 类 器 使 用 分 治 方法 产生 PART 
决策 表 的 类 。 在 每 次 迭代 中 构建 局 部 C4.5 决策 树 ， 并 将 “最 好 ”叶子 构成 规则 。 此 外 ， 还 
有 ZeroR、OneR 以 及 DecisionTable 分 类 器 。 

4. 基于 实例 的 算法 

基于 决策 树 的 分 类 框架 包括 两 个 步 又， 第 一 步 是 归纳 步 ， 由 训练 数据 构建 分 类 模型 ; 
第 二 步 是 演绎 步 ， 将 模型 应 用 于 测试 样本 。 前 文 所 述 的 决策 树 和 基于 规则 的 分 类 器 都 是 先 
对 训练 数据 进行 学 习 ， 得 到 分 类 模型 ， 然 后 对 未 知 数据 进行 分 类 ， 这 类 方法 通常 称 为 积极 
学 习 器 (Eager Learner)。 与 之 相反 的 策略 是 推迟 对 训练 数据 的 建 模 ， 直 到 需要 对 未 知 样本 进 
行 分 类 时 才 进 行 建 模 ， 采 用 这 种 策略 的 分 类 器 称 为 消极 学 习 器 (Lazy Learner)。 消 极 学 习 器 
的 典型 代表 是 最 近邻 方法 ， 其 途径 是 找 出 与 测试 样本 相对 接近 的 所 有 训练 样本 ， 这 些 训练 
样本 称 为 最 近邻 Nearest Neighbor，NN)， 然 后 使 用 最 近邻 的 类 别 标签 来 确定 测试 样本 的 类 
别 标签 。 

算法 2.3 是 kk 最 近邻 分 类 算法 (简称 kNN) 的 伪 代 码 描述 。 对 每 一 个 测试 样本 
z=(x"y")， 计 算 该 样本 与 所 有 训练 样本 (x,y)e DD 之 间 的 距离 q(x',x) ， 以 确定 其 最 近邻 的 
集合 Dc D 。 显 然 ， 如 果 训 练 样本 的 数目 很 大 ， 那 么 这 种 计算 的 开销 会 很 大 。 


算法 2.3 Je 最 近邻 分 类 算法 
设 天 为 最 近邻 数目 ，D 为 训练 样本 的 集合 
for 每 个 测试 样本 2=(x'y'”) do 
计算 z 和 每 个 样本 (x,y) e DD 之 间 的 距离 d(x',x) 
选择 离 z 最 近 的 k 个 训练 样本 的 集合 D. cD 
= arg max DG, I(w=y) ”// 返回 D, 样 本 中 多 数 类 别 的 类 别 标签 


end for 


一 旦 得 到 最 近邻 集合 ， 测 试 样本 就 可 以 按照 最 近邻 的 多 数 类 别 进行 分 类 ， 具 体 方法 是 
进行 多 数 表决 ， 多 数 表决 按 如 下 公式 计算 : 
y'=arg max Dc wen, [Y=») 


其 中 ，v 是 类 别 标签 的 所 有 可 能 取 值 ，y; 是 某 个 最 近邻 的 类 别 标签 ，7 为 参数 为 真 则 返回 
1， 和 否则 返回 0 的 指示 函数 。 

以 上 的 多 数 表 决 方法 使 用 每 个 近邻 对 分 类 的 影响 都 一 样 的 方式 ， 这 使 得 算法 对 的 取 
值 很 敏感 。 降 低 上 影响 的 一 种 方法 是 根据 每 个 最 近邻 距离 的 不 同 对 其 影响 加 权 ， 使 靠近 z 
的 训练 样本 对 分 类 的 影响 力 大 于 那些 远离 z 的 训练 样本 。 

Weka 提供 了 多 种 消极 学 习 器 。 其 中 ，IBK 分 类 器 是 一 种 k- 最 近邻 分 类 器 。IBKk 可 用 多 
种 不 同 的 搜索 算法 来 加 快 寻找 最 近邻 的 任务 ， 默 认 的 搜索 算法 是 线性 搜索 ， 但 也 可 以 使 用 
其 他 算法 ， 如 kD-trees、Ball Trees 以 及 称 为 Cover Trees( 覆 盖 树 ) 的 算法 。 搜 索 方 法 使 用 距 
离 函数 作为 参数 ， 默 认 是 欧 氏 距离 ， 其 他 选项 还 有 切 比 雪夫 、 曼 哈 顿 和 闵可夫 斯 基 距 离 。 
最 近邻 数 (默认 = 1D 可 以 用 对 象 编辑 器 明确 指定 ， 或 者 使 用 留 一 法 交叉 验证 来 自动 确定 ， 
但 须 指定 值 的 上 限 。KStar 分 类 器 也 是 基于 实例 的 分 类 器 ， 其 测试 实例 类 以 类 似 于 它 的 训 
练 实例 类 为 基础 ， 有 一 些 类 似 的 功能 。 它 不 同 于 其 他 基于 实例 的 学 习 ， 因 为 它 使 用 基于 箭 
的 距离 函数 。LWL 分 类 器 使 用 局 部 加 权 学 习 ， 它 使 用 基于 实例 的 算法 分 配 实例 权重 ， 然 后 
使 用 加 权 实 例 构建 分 类 器 。 

5. 支持 向 量 机 


支持 向 量 机 (Support Vector Machine，SVM) 分 类 器 是 一 种 监督 式 学 习 的 方法 ， 广 泛 地 
应 用 于 统计 分 类 以 及 回归 分 析 。SVM 的 特点 是 能 够 同时 最 小 化 经 验 误 差 与 最 大 化 几何 边 
缘 。 因 此 支持 向 量 机 也 被 称 为 最 大 边缘 分 类 器 。 

支持 向 量 机 技术 具有 坚实 的 统计 学 理论 基础 ， 并 在 实践 上 有 诸多 成 功 示例 。SVM 可 以 
很 好 地 用 于 高 维 数据 ， 避 免 维 数 灾难 。 它 有 一 个 独特 的 特点 ， 就 是 使 用 训练 实例 的 一 个 子 
集 来 表示 决策 边界 ， 该 子 集 称 为 支持 向 量 ， 这 就 是 其 名 称 的 来 历 。 

数据 分 类 是 机 器 学 习 的 一 种 常见 任务 。 假 定 有 一 些 给 定 的 数据 点 ， 每 个 数据 点 属于 两 个 
类 别 之 一 ， 即 二 元 分 类 ， 分 类 的 目标 是 ， 确 定 一 个 新 的 数据 点 属于 哪个 类 别 。 用 支持 向 量 
机 的 观点 ， 可 以 将 一 个 数据 点 视 为 一 个 p 维 向 量 ， 问 题 就 转换 为 是 否 可 以 使 用 一 个 (P - 1) 
维 超 平面 将 这 些 点 按 类 别 进行 分 割 ， 这 就 是 所 谓 的 线性 分 类 器 。 有 许多 可 能 对 数据 进行 分 
类 的 超 平 面 ， 最 佳 的 超 平面 应 该 是 能 够 将 两 个 类 别 最 大 限度 地 分 离开 来 的 超 平 面 。 所 以 选 
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面 ， 可 称 之 为 最 大 边缘 超 平面 ， 所 定义 的 线性 分 类 器 称 为 最 大 边缘 分 类 器 。 如 图 2.43 所 
示 ， 超 平面 Hi 不 能 分 割 两 个 类 别 ， 超 平面 H, 能 够 分 割 ， 但 边缘 很 小 ， 超 平面 Hs 能 以 最 大 
边缘 分 割 两 个 类 别 。 


2.43” 超 平面 示意 图 ? 


支持 向 量 机 原先 是 为 二 元 分 类 问题 设计 的 ， 但 它 也 可 以 扩展 至 能 够 处 理 多 元 分 类 问 
题 。 支 持 向 量 机 分 为 线性 支持 向 量 机 和 非 线性 支持 向 量 机 ， 限 于 篇 幅 ， 本 书 只 介绍 线性 支 
持 向 量 机 。 

考虑 一 个 包含 个 训练 样本 的 二 元 分 类 问题 。 设 数据 集 为 D， 则 

D= {Gx,,7,)|x, ER?,y, et{-1,)} i=L,-,N 
其 中 ，y, 的 值 为 1 或 -1， 表 示 点 x; 所属 的 类 别 ，x; 是 p 维 的 实数 向 量 。 目 标 是 寻找 一 个 
能 将 六 =1 和 ] =-1 的 数据 点 进行 分 割 的 最 大 边缘 超 平面 。 任 意 超 平面 都 可 写 为 满足 下 式 
的 点 集 。 
w:x—-b=0 


其 中 ，“。” 代表 点 积 ，w 代表 超 平面 的 法 向 量 ， 参 数 - 决定 超 平面 从 原点 沿 法 向 量 w 


|w| 
的 位 移 。 
如 果 训练 数据 线性 可 分 ， 可 以 选择 两 个 超 平面 ， 使 得 它们 能 分 割 数 据 ， 且 没有 点 落 在 两 
个 超 平面 之 间 。 然 后 尽量 让 两 个 超 平面 的 距离 最 大 化 。 这 些 超 平面 方程 可 以 由 下 式 描述 。 
w:x—b=1 
w:x—b=-l 


0 | 国王 才 人 贡 外 二 开水 和 
Ww 


， 如 图 2.44 所 示 。 
因为 要 阻止 数据 点 落 入 边缘 内 ， 所 以 添加 如 下 约束 。 
对 于 属于 第 一 个 类 别 的 x,， 有 w-x, -5b 之 1 

对 于 属于 第 二 个 类 别 的 x,， 有 w-x,-b 志 -1 

上 述 两 个 公式 可 以 合 写 为 更 紧凑 的 形式 : 


|w 


对 于 全 部 的 1 i 三 N， 有 y,(w x, -b) 宇 1 
因此 ， 线 性 支持 向 量 机 的 最 大 化 边缘 等 价 于 最 小 化 如 下 的 目标 函数 : 


-人 
fw = 


2.44 ”最 大 边缘 超 平面 ? 


Weka 提供 多 个 支持 向 量 机 分 类 器 算法 。SMO 分 类 器 实现 训练 支持 向 量 分 类 器 的 序列 
最 小 优化 (Sequential Minimal Optimization，SMO) 算 法 ， 使 用 诸如 多 项 式 或 高 斯 核 的 核 函 
数 。 全 局 替换 缺失 值 ， 标 称 属性 转换 为 二 元 属性 ， 默 认 情 况 下 对 属性 进行 规范 化 (输入 标准 
化 为 零 均 值 和 单位 方差 )， 可 关闭 规范 化 选项 。SMOreg 分 类 器 实现 序列 最 小 优化 算法 的 学 
习 支 持 向 量 回归 模型 。 

6. 集成 学 习 

集成 学 习 (Ensemble Learning) 就 是 通过 聚集 多 个 分 类 器 的 预测 结果 来 提高 分 类 准确 
率 。 集 成 方法 由 训练 数据 构建 一 组 基 分 类 器 (Base Classifier)， 然 后 通过 每 个 基 分 类 器 的 预 
测 的 投票 来 进行 分 类 。 一 般 来 说 ， 集 成 的 分 类 器 的 性 能 要 好 于 任意 的 单个 分 类 器 。 

集成 学 习 的 逻辑 视图 如 图 2.45 所 示 。 其 基本 思想 是 ， 在 原始 数据 上 构建 多 个 分 类 器 ， 
然后 分 别 预测 未 知 样本 的 类 别 ， 最 后 聚集 预测 结果 。 

构建 集成 分 类 器 的 方法 有 多 种 。 使 用 最 多 的 有 如 下 两 种 ， 第 一 种 是 处 理 训 练 数据 集 。 
根据 某 种 决定 某 个 样本 抽取 到 的 可 能 性 大 小 的 抽样 分 布 ， 对 原始 数据 进行 二 次 抽样 以 得 到 
多 个 训练 集 。 然 后 ， 使 用 特定 学 习 算 法 为 每 个 训练 集 构建 一 个 分 类 器 。 装 袋 (Bagging) 和 提 
升 Boosting) 采 用 这 种 方式 。 第 二 种 处 理 输 入 特征 ， 通 过 选择 输入 特征 的 子 集 来 得 到 多 个 训 
练 集 。 这 种 方法 对 那些 含有 大 量 元 余 特 征 的 数据 集 性 能 非常 好 。 随 机 森林 (Random Foresb 
采用 这 种 方法 。 

集成 学 习 的 一 般 过 程 如 算法 2.4 所 示 。 集 成 学 习 对 不 稳定 的 分 类 器 效果 较 好 ， 不 稳定 
的 分 类 器 对 微小 变化 都 很 敏感 ， 包 括 决 策 树 、 基 于 规则 的 分 类 器 和 人 工 神 经 网 络 。 由 于 训 
练 样本 的 可 变性 是 分 类 器 误差 的 主要 来 源 之 一 ， 聚 集 在 不 同 训练 集 上 构建 的 基 分 类 器 ， 有 
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助 于 减少 这 类 误差 。 聚集 方法 一 般 是 对 单个 预测 值 进行 多 数 表决 ， 也 可 以 用 基 分 类 器 的 准 
确 率 对 预测 值 进 行 加 权 ， 得 到 聚集 后 的 预测 结果 。 


中 原始 训练 数据 


步骤 1: 创建 多 
个 数据 集 


步骤 2: 构建 多 
个 分 类 器 


步骤 3: 聚集 分 
类 器 


2.45 ”集成 学 习 逻 辑 视图 


算法 2.4 集成 学 习 的 一 般 过 程 


设 D 表示 原始 训练 数据 集 ，k 表示 基 分 类 器 的 个 数 ，T 表示 测试 数据 集 
fori=1tokdo 


由 D 创建 训练 集 Di 
由 Di 构建 基 分 类 器 Ci 
end for 
for 每 一 个 测试 样本 xET do 
C (x) = Vote(C, (x), Cz (Xx),..., Cx (x)) 
end for 
1) 装 袋 


装 袋 又 称 为 自助 聚集 (Boot Strap Aggregation)， 是 一 种 根据 均匀 概率 分 布 从 数据 集中 有 
放 回 重复 抽样 的 技术 。 每 个 自助 样本 集 都 和 原 数据 集 一 样 大 。 由 于 抽样 过 程 是 有 放 回 的 ， 
因此 在 同一 个 训练 样本 中 可 能 会 多 次 出 现 同一 些 样 本 ， 也 可 能 有 的 不 会 出 现 。 一 般 来 说 ， 
自助 样本 D; 大 约 包含 原 训练 数据 的 63%， 因 为 D; 抽 到 一 个 样本 的 概率 为 1-(1-1/N)>， 
如 果 足够 大 ， 这 个 概率 收敛 于 1-1/es 0.632 。 装 袋 的 过 程 如 算法 2.5 所 示 ， 训 练 k 个 分 
类 器 后 ， 分 类 器 对 单个 预测 值 进行 多 数 表决 ， 得 票 最 高 的 类 别 指派 给 测试 样本 。 
算法 2.5 装 袋 算 法 
设 N 为 原始 数据 集 的 实例 数目 ，k 为 自助 样本 集 的 数目 
fori=1tokdo 
生成 一 个 大 小 为 N 的 自助 样本 集 D; 
在 自助 样本 集 Di 上 训练 一 个 基 分 类 器 C; 


end for 


在 算法 中 ， 函 数 IA) 定 义 为 ， 如 果 参 数 A 为 真 ， 则 I(A) 为 1， 否 则 为 0。 

装 袋 通过 降低 基 分 类 器 方差 改善 了 泛 化 误差 。 装 袋 的 性 能 依赖 于 基 分 类 器 的 稳定 性 ， 
装 袋 应 该 选择 不 稳定 的 基 分 类 器 ， 这 样 有 助 于 降低 因 训 练 数据 的 随机 波动 导致 的 误差 。 由 
于 选中 每 个 样本 的 概率 都 相同 ， 因 此 装 袋 并 不 偏重 于 原 训练 数据 集中 的 任何 样本 ， 不 太 受 
过 分 拟 合 的 影响 。 

2) 提升 

提升 是 一 个 自 适应 改变 选 练 样本 分 布 的 迭代 过 程 ， 使 基 分 类 器 重点 关注 那些 难以 分 类 
的 样本 。 不 像 装 袋 ， 提 升 为 每 一 个 训练 样本 赋 一 个 权重 ， 在 每 一 轮 提 升 过 程 结 束 时 可 以 自 
动 调整 权重 。 赋 值 给 训练 样本 的 权重 可 用 于 以 下 两 个 方面 。 

第 一 ， 用 作 抽 样 分 布 ， 从 原始 数据 集中 抽取 自助 样本 集合 。 

第 二 ， 可 以 为 基 分 类 器 所 用 ， 学 习 偏向 于 高 权重 样本 的 模型 。 
因此 ， 提 升 算法 就 是 利用 样本 的 权重 来 确定 训练 集 的 抽样 分 布 。 开 始 时 所 有 样本 的 权 
重 都 等 于 1/V， 抽 样 到 的 概率 都 一 样 ， 抽 样 得 到 新 样本 集 后 训练 得 一 个 分 类 器 ， 并 用 它 来 
对 原始 数据 集中 的 所 有 样本 进行 分 类 。 每 一 轮 提 升 都 增加 错误 分 类 样本 的 权重 ， 减 小 正确 
分 类 样本 的 权重 ， 这 使 得 分 类 器 在 后 续 迭 代 中 关注 那些 难以 分 类 的 样本 。 

已 经 有 多 种 提升 算法 的 实现 ， 其 主要 差别 是 : 第 一 ， 每 轮 提 升 后 更 新 样本 权重 的 算 
法 ; 第 二 ， 如 何 汇集 各 个 分 类 器 的 预测 。 其 中 ，AdaBoost 算法 使 用 广泛 ， 因 此 本 书 介绍 
AdaBoost 算法 ， 其 基 分 类 器 的 重要 性 依赖 于 它 的 分 类 错误 率 。 错 误 率 定义 为 


1 
5 = TG) #7»)] 


其 中 ， 国 为 第 7 个 样本 ，Cxo) 为 第 工 个 分 类 器 对 样本 七 的 分 类 结果 ，7 为 指示 器 (如 果 参 数 4 
为 tue， 则 14)=1， 否 则 为 0)，w; 为 权重 。 
基 分 类 器 C; 的 重要 性 按 下 式 计算 。 


如 果 错 误 率 接近 0， 则 ww 为 正 无 穷 ， 如 果 错 误 率 接近 1， 则 w 为 负 无 穷 。 
参数 上 用 于 更 新 训练 样本 权重 ，AdaBoost 权重 更 新 机 制 由 下 式 决定 : 
jy 芝 Ww 如 果 C7 (1)=» 
' 2 ec 如果 C7 (m7)#y 
其 中 ,万 为 规范 化 因子 ， 用 于 确保 > wr? =1。 

AdaBoost 算法 不 使 用 多 数 表决 的 方案 ， 而 是 对 分 类 器 GC; 的 预测 值 根据 w 加 权 。 这 
样 ， 有 助 于 惩罚 那些 准确 率 很 低 的 模型 。 另 外 ， 如 果 某 一 轮 产生 大 于 50% 的 误差 ， 则 将 权 
重重 新 恢复 为 初始 值 ， 重 新 抽样 重 做 该 轮 的 提升 。AdaBoost 算法 伪 代 码 如 算法 2.6 所 示 。 

算法 2.6 AdaBoost 算法 

w={w, =1/N|j=12,..,N} // 初始 化 个 样本 的 权 值 

设 k 表 示 提 升 的 轮 数 
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在 Di 上 训练 基 分 类 器 Ci 
用 ci 对 原 训练 集 D 中 的 所 有 样本 分 类 
5 -二 [Zrwrceo) »)| // 计算 加 权 误差 
if es >0.5 then // 误差 太 大 ， 重 试 
w=fw =11N|j=12,…,N} // 重新 设置 N 个 样本 的 权 值 
和 三 : 和 江 // 恢复 迭代 轮 次 
break 
end if 
a, = 
"i 


J 如 果 C7 (4)=y 


w 
根据 人 式 和 一 7 tt ， 更 新 每 个 样本 的 权 值 
. 


end for 
C CD=argmax》， ,oaj7(CCD = 有 
了 


Weka 的 实现 算法 为 AdaBoostM1， 它 使 用 AdaBoost 算法 的 M1 方法 ， 提 升 标 称 型 类 
别 的 分 类 器 类 。 只 能 处 理 标 称 型 分 类 的 问题 ， 通 常会 显著 提高 性 能 ， 但 有 时 会 过 拟 合 。 另 
外 ，Weka 还 提供 LogitBoost， 它 使 用 回归 方法 为 基础 的 学 习 ， 能 处 理 多 分 类 问题 。 

3) 随机 森林 

随机 森林 是 一 类 专门 为 决策 树 分 类 器 设计 的 集成 学 习 方 法 。 它 集成 多 棵 决策 树 的 预 
测 ， 其 中 每 棵 树 都 是 基于 随机 向 量 的 一 个 独立 集合 的 值 产生 的 。 

随机 森林 得 到 基 分 类 器 C; 的 算法 主要 分 为 如 下 两 步 : 

第 一 步 ， 对 给 定 原始 训练 集 采用 有 放 回 的 自助 取样 ， 得 到 和 原始 训练 集 大 小 一 致 的 训 
练 集 ， 与 装 袋 方法 一 致 ; 

第 二 步 ， 随 机 选取 分 裂 属性 集 。 假 设 共 有 M 个 属性 ， 指 定 一 个 小 于 M 的 属性 数 FF， 
在 整个 森林 的 生长 过 程 中 ，F 的 值 一 般 维持 不 变 。 每 棵 树 任 其 生长 ， 既 充分 生长 ， 不 进行 
剪 枝 。 在 每 个 内 部 结 点 ， 从 M 个 属性 中 随机 抽取 到 个 属性 作 分 裂 属性 集 ， 以 最 好 的 分 裂 
方式 对 结 点 进行 分 裂 。 

随机 森林 的 组 合 输出 采用 简单 多 数 投票 法 (针对 分 类 )， 或 者 采用 多 棵 决策 树 输出 结果 
的 简单 平均 值 (针对 回归 ) 得 到 。 

Weka 提供 实现 随机 森林 的 RandomForest 算法 。 


2.3.5 ”分 类 模型 评估 
1. 定性 评估 标准 
一 般 来 说 ， 分 类 模型 有 如 下 评估 标准 。 
(1) 预测 的 准确 率 ， 模型 正确 地 预测 新 的 或 先前 没 见 过 的 样本 的 类 别 标签 能 
(2) 速度 : 产生 和 使 用 模型 的 计算 开销 。 
(3) 强壮 性 : 对 于 有 噪声 或 具有 缺失 值 的 样本 ， 模 型 能 正确 预测 的 能 力 。 
(4) 可 伸缩 性 : 给 定 大量 的 数据 集 ， 能 有 效 地 构造 模型 的 能 力 。 


预测 的 准确 率 常 用 于 比较 和 评估 分 类 器 的 性 能 ， 它 将 每 个 类 别 看 成 同等 重要 ， 因 此 可 
能 不 适合 用 来 分 析 不 平衡 数据 集 。 在 不 平衡 数据 集中 ， 稀 有 类 别 比 多 数 类 别 更 有 意义 。 也 
就 是 说 ， 需 要 考虑 错误 决策 、 错 误 分 类 的 成 本 问题 。 例 如 ， 在 银行 贷款 决策 中 ， 贷 款 给 违 
规 者 的 代价 远 远 比 由 于 拒绝 贷款 给 不 违规 者 而 造成 生意 损失 的 代价 大 得 多 ; 在 诊断 问题 
中 ， 实 际 没有 问题 的 机 器 误诊 为 有 问题 而 产生 的 成 本 比 没有 诊断 出 问题 而 导致 机 器 损坏 而 
产生 的 损失 小 得 多 。 

对 于 一 个 二 元 分 类 问题 ， 预 测 可 能 产生 四 种 不 同 的 结果 ， 如 表 2.1 所 示 。 真 阳性 (Tme 
Positive，TP) 和 真 了 明 性 (True Negative，TN) 都 是 正确 分 类 结果 ， 即 预测 类 别 和 真实 类 别 相 
符 。 假 阳性 (False Positive，FP) 发 生 在 当 预 测 类 别 为 yes 而 实际 为 no 时 ， 假 阴性 (False 
Negative，FN) 发 生 在 当 预 测 类 别 为 no 而 实际 为 yes 时 。 


表 2.1 二 元 预测 的 不 同 结果 


预测 类 别 


| yes | 真 阳性 严 
| wo | 假 阳性 FP 


通常 可 以 将 表 2.1 推广 至 多 元 分 类 的 问题 ， 只 不 过 增加 一 些 行 和 列 ， 称 为 二 维 混淆 矩 
阵 ， 常 用 来 展示 对 测试 集 的 预测 结果 。 真 实 类 别 对 应 矩阵 行 ， 预 测 类 别 对 应 矩阵 列 ， 和 矩阵 
单元 则 显示 对 应 的 测试 样本 数目 。 也 有 文献 将 真实 类 别 对 应 矩阵 列 ， 预 测 类 别 对 应 矩阵 
行 ， 只 是 将 行列 对 调 ， 并 没有 实质 的 区 别 。 好 的 测试 结果 应 该 是 在 主 对 角 线 上 的 数值 要 
大 ， 而 其 他 非 主 对 角 线 上 单元 的 数值 要 小 。 

对 于 二 元 分 类 问题 ， 有 如 下 的 简单 度量 标准 。 


真实 类 别 


2. 常用 度量 
真 阳性 率 (True Positive Rate) 是 TP 除 以 真实 类 别 为 yes 的 总 数 (TP+FN)， 即 
TP 
TPR= 
TPHEN 
真 阴 性 率 (True Negative Rate) 是 TN 除 以 真实 类 别 为 no 的 总 数 (FP+TN)， 即 
TN 
TNR= 
FP+IN 
假 阳 性 率 (False Positive Rate) 是 FP 除 以 真实 类 别 为 no 的 总 数 (FP+TN)， 即 
FP 
FPR= 
FPHTN 
假 阴 性 率 (False Negative Rate) 是 FN 除 以 真实 类 别 为 yes 的 总 数 (TP+FN)， 即 
-_EN 
FN+TP 
综合 准确 率 是 正确 分 类 总 数 除 以 全 体 分 类 总 数 | 准确 率 - ] 。 知 道 这 些 
TPHTNHFPHFN 


“ 率 ” 之 后 ， 对 应 的 错误 率 则 是 1 减 去 这 些 率 。 
另外 ， 查 全 率 (Recall) 和 查 准 率 (Precision) 是 两 个 使 用 广泛 的 度量 ， 其 定义 为 
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查 准 率 确定 分 类 器 断定 为 正 例 的 那 部 分 记录 中 实际 为 正 例 的 记录 所 占 的 比例 。 查 准 率 
越 高 ， 分 类 器 的 假 阳 性 率 就 越 低 。 查 全 率 度量 分 类 器 正确 预测 的 正 例 的 比例 ， 如 果 分 类 器 
的 查 全 率 高 ， 则 很 少将 正 例 误 分 为 负 例 。 实 际 上 ， 查 全 率 的 值 等 于 真 阳性 率 。 

分 类 算法 的 主要 任务 之 一 就 是 构建 一 个 最 大 化 查 全 率 和 查 准 率 的 模型 。 可 以 将 查 全 率 
和 查 准 率 合并 成 一 个 称 为 Fi 的 度量 ，Weka 称 Fi 为 F-Measure。 

Fe 2 
' rip 2xTP+FP+FN 
Fi 表示 查 全 率 和 查 准 率 的 调和 均值 。 可 以 把 上 式 改写 为 
这 
FE < 下 
| 

由 于 两 个 数 的 调和 均值 趋向 于 接近 较 小 的 值 ， 因 此 Fi 度量 值 高 可 以 确保 查 全 率 和 查 准 
率 都 比较 高 。 

3. 接受 者 操作 特征 曲线 

接受 者 操作 特征 (Receiver Operating Characteristic，ROC) 曲 线 是 显示 分 类 器 真 阳性 率 和 
假 阳性 率 之 间 折 中 的 一 种 图 形 化 方法 。 在 ROC 曲线 中 ，x 轴 为 假 阳 性 率 ，y 轴 为 真 阳 性 
率 ， 曲 线 的 每 个 点 对 应 某 个 分 类 器 归纳 的 模型 ， 如 图 2.46 所 示 。 


100 


True Positives (%) 


0 00 80 100 
False Positives (%) 


图 2.46 ”ROcC 曲线 


ROC 曲线 有 几 个 关键 点 ， 公 认 的 解释 如 下 。 

e (TPR=0，FPR=0): 把 每 个 实例 都 预测 为 负 例 的 模型 ; 

e (TPR=1，FPR=1): 把 每 个 实例 都 预测 为 正 例 的 模型 ; 

e (TPR=1，FPR=0): 理想 模型 。 

好 的 分 类 模型 应 该 尽 可 能 靠近 ROC 图 的 左上 角 ， 随 机 猜测 的 模型 应 位 于 连接 点 


(TPR=0，FPR=0) 和 点 (TPR=1，FPR=1) 的 主 对 角 线 上 。 
MM 


ROC 曲线 下 方 的 面积 (Area Under the Curve，AUC) 提 供 了 另 一 种 评估 模型 的 平均 性 能 
的 方法 。 如 果 模 型 是 完美 的 ， 则 它 的 ROC 曲线 下 方 的 面积 等 于 1; 如 果 模 型 是 随机 猜测 
的 ， 则 它 的 ROC 曲线 下 方 的 面积 等 于 0.5; 如 果 一 个 模型 比 另 一 个 模型 好 ， 则 它 的 ROC 
曲线 下 方 的 面积 较 大 。 


2.3.6 手把手 教 你 用 
1. 使 用 C4. 5 分 类 器 


本 例 使 用 C4.5 分 类 器 对 天 气 数据 集 进行 分 类 。 

首先 加 载 天 气 数据 集 ， 操 作 步 骤 为 : 启动 探索 者 窗口 ， 在 预 处 理 面板 中 单 击 Open file 
按钮 ， 选 择 并 打开 data 目录 中 的 weather.nominal.arff 文件 ， 然 后 ， 单 击 Classify 标签 页 切 
换 到 Classify 面板 。 

从 前 面 的 学 习 中 可 以 知道 ， 构 建 决策 树 的 C4.5 算法 在 Weka 中 是 作为 一 个 分 类 器 来 实 
现 ， 名 称 为 48。 单 击 Classify 面板 上 部 的 Choose 按钮 ， 会 出 现 一 个 对 话 框 ， 显 示 不 同类 
型 的 分 类 器 。 单 击 trees 条 目 以 展开 其 子 条 目 ， 然 后 单 击 J48 选择 该 分 类 器 。 与 过 滤器 一 
样 ， 分 类 器 也 按 层次 进行 组 织 ，J48 的 全 名 为 : weka.classifiers.trees.J48。 

在 Choose 按钮 旁边 的 文本 框 内 ， 可 以 看 到 当前 分 类 器 及 选项 : J48 -C 0.25 -M 2。 这 
是 此 分 类 器 默认 的 参数 设置 ， 对 于 J48 分 类 器 ， 很 少 需要 为 获得 良好 的 性 能 而 更 改 这些 
参数 。 

为 了 便于 说 明 ， 使 用 训练 数据 进行 性 能 评估 ， 训 练 数 据 在 预 处 理 面板 就 已 经 完成 加 
载 。 使 用 训练 数据 进行 评估 并 不 是 一 个 好 方法 ， 因 为 它 会 导致 盲目 乐观 的 性 能 估计 。 从 分 
类 面板 中 的 Test options( 测 试 选项 ) 部 分 ， 选 择 Use training set( 使 用 训练 集 ) 选 项 ， 以 确定 测 
试 策略 。 做 好 上 述 准 备 之 后 ， 可 以 单 击 Start( 开 始 ) 按 钮 ， 启 动 分 类 器 的 构建 和 评估 ， 使 用 
当前 选择 的 学 习 算法 一 一 J48， 通 过 训练 集 构建 J48 分 类 器 模型 。 然 后 ， 使 用 构建 的 模型 对 
训练 数据 的 所 有 实例 进行 分 类 以 评估 性 能 ， 并 输出 性 能 统计 信息 ， 如 图 2.47 所 示 。 
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2.47 ”选择 测试 选项 
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训练 和 测试 结果 会 以 文本 方式 显示 在 窗口 右 侧 的 Classifier Output( 分 类 器 输出 ) 框 中 。 
读者 可 拖 动 右边 的 滚动 条 以 检查 这 些 文字 信息 。 首 先 看 决策 树 的 描述 部 分 ， 其 信息 重新 摘 
录 如 图 2.48 所 示 。 

上 述 文字 表示 构建 的 J48 剪 枝 决策 树 ， 包 括 决 策 节 点 、 分 支 和 叶 节点 ， 决 策 节 点 用 一 
个 测试 表示 ， 分 支 用 “|” 加 上 缩 进 表示 ， 叶 节点 后 面 有 一 个 括号 ， 括 号 内 的 数字 代表 到 达 
该 叶 节点 的 实例 数量 。 当 然 ， 采 用 文字 对 模型 进行 表述 十 分 笨拙 且 难 以 理解 ， 因 此 Weka 
也 能 生成 等 效 的 图 形 表示 。 

按照 上 述 方法 ， 如 果 更 改 数据 集 或 调整 选项 ， 每 次 单 击 Start 按钮 ， 都 会 构建 和 评估 一 
个 新 的 分 类 器 模型 ， 在 图 2.47 所 示 窗 口 左下 角 的 Result List( 结 果 列 表 ) 面 板 上 就 会 相应 添 
加 一 条 新 条 目 。 

可 以 按照 如 下 方法 得 到 图 形 化 表示 的 决策 树 。 右 击 刚刚 被 添加 到 结果 列表 中 的 
“trees.J48” 条 目 ， 并 在 弹出 菜单 中 选择 Visualize tree( 可 视 化 树 ) 菜 单项 ， 会 弹出 一 个 如 
2.49 所 示 的 决策 树 窗口 。 该 决策 树 视图 可 以 自动 缩放 和 平移 ， 可 以 通过 选择 鼠标 右 击 空 
白 处 带 出 的 上 下 文 菜单 中 的 菜单 项 ， 实 现 自 动 缩放 ， 可 以 通过 拖 动 鼠标 实现 视图 平移 。 

可 见 ， 图 2.49 与 图 2.48 表示 的 信息 是 一 致 的 。 其 中 ， 叶 节点 中 用 括号 引起 的 数字 表 
示 到 达 该 节点 的 实例 数量 。 另 外 ， 图 2.48 的 文字 描述 还 包含 两 条 额外 信息 : Number of 
Leaves( 叶 子 数量 ) 表 示 叶 子 节点 的 数量 ，Size of the tree( 树 大 小 ) 表 示 树 中 全 部 节点 的 数量 。 

现在 来 看 看 分 类 器 输出 的 其 余 信 息 。 输 出 中 接 下 来 的 两 个 部 分 给 出 了 基于 选 定 的 测试 
选项 得 到 的 分 类 模型 的 质量 报告 。 第 一 部 分 是 一 段 文字 描述 ; 


Correctly Classified Instances 14 100% 


J48 pruned tree Tr Tim 


outlook = sunny 
| humidicy = high: no (3.0) 


a ee ee 
eurlook = rain 
人 windy = RUE: ao (2.0) i Eo 
| windy = FALSE: yes (3.0) 
om” Snoma TRUE SFALsE 
Number of Lesves : 5 mn 可 和 Pm 
Size of che rree : ee | 
2.48 决策 树 的 文字 描述 2.49 构建 的 决策 树 


这 段 文 字 描述 了 正确 分 类 的 测试 实例 有 多 少 条 ， 占 多 大 比例 。 它 表示 使 用 数据 进行 测 
试 模型 的 准确 性 。 本 例 中 ， 准 确 性 高 达 100%， 表 示 完 全 正确 ， 不 用 惊奇 ， 这 是 把 训练 集 
用 于 测试 的 条 件 下 经 常 发 生 的 事 。 

分 类 器 输出 的 最 后 一 项 是 一 个 如 下 所 示 的 混淆 矩阵 : 

一 = Confusion Matrix = 一 

a b <-- classified as 

9 ©1a= yes 

0 5 |b=no 


和 矩阵 中 的 每 一 个 元 素 都 是 实例 的 计数 值 。 行 表示 真实 类 别 ， 列 表示 预测 类 别 。 读 者 可 


以 看 到 ， 全 部 9 个 真实 类 别 为 yes 的 实例 都 已 预测 为 yes， 全 部 5 个 真实 类 别 为 no 的 实例 
都 已 预测 为 no。 只 有 主 对 角 线 上 的 数值 很 大 ， 而 非 主 对 角 线 上 的 数值 都 为 0 时 ， 表 明 预 测 
完全 正确 。 

以 上 是 使 用 训练 集 作为 测试 策略 得 到 的 训练 结果 ， 当 然 ， 还 可 以 选择 使 用 其 他 的 测试 
策略 。 单 击 Start 按钮 启动 所 选 学 习 算法 的 运行 ， 使 用 预 处 理 面板 中 加 载 的 数据 集 和 所 选择 
的 测试 策略 。 例 如 ， 如 果 使 用 十 折 交 叉 验 证 ， 需 要 运行 10 次 学 习 算法 ， 以 构建 和 评估 10 
个 分 类 器 。 要 注意 的 是 ， 打 印 到 分 类 器 输出 区 域 的 分 类 器 模型 是 由 完整 的 训练 集 构建 的 ， 
这 可 能 是 最 后 一 次 运行 学 习 算法 得 到 的 结果 

现在 加 载 iris 数据 集 ， 还 是 使 用 J48 分 类 器 进行 学 习 。 首 先 选择 使 用 Use training set 
测试 选项 ， 然 后 选择 使 用 Cross-validation 10 折 测 试 选项 ， 分 别 训练 并 评估 J48 分 类 器 ， 运 
行 结果 如 表 2.2 所 示 。 


表 2.2 两 种 测试 选项 的 运行 结果 


人 正确 分 类 比例 


Use training set 使 用 训练 集 [17 | 
Cross-validation(10folds) 交叉 验证 (10 折 ) lw 


从 表 2.2 的 数据 可 以 看 到 ， 使 用 训练 集 的 正确 分 类 所 占 的 比例 较 高 ， 达 到 98%。 但 由 
于 是 直接 将 训练 集 用 于 测试 ， 因 此 结论 并 不 可 靠 。 相反， 十 折 交 叉 验 证 将 数据 集 分 为 10 
等 份 ， 将 其 中 的 1 份 用 于 测试 ， 另 外 9 份 用 于 训练 ， 如 此 依次 进行 10 次 训练 和 评估 ， 显 
然 得 到 的 结论 要 可 靠 一 些 。 

最 后 ， 检 查 一 下 分 类 错误 的 可 视 化 表示 。 右 击 结果 列表 中 的 trees.J48 条 目 ， 然 后 从 上 
下 文 菜单 中 选择 Visualize classifier errors( 可 视 化 分 类 错误 ) 菜 单项 。 会 弹出 一 个 散 点 图 窗 
口 ， 正 确 分 类 的 实例 标记 为 小 十 字 ， 不 正确 的 分 类 实例 标记 为 小 空心 方块 ， 如 图 2.50 所 示 。 

图 2.50 中 ， 横 坐标 表示 真实 的 类 别 ， 纵 坐标 表示 预测 的 类 别 。 请 注意 ， 不 要 为 表面 现 
象 迷 惑 ， 一 个 小 十 字 并 不 定 只 代表 一 个 实例 ， 一 个 小 空心 方块 有 时 也 并 不 仅仅 代表 一 个 
错 分 的 实例 。 如 果 想 看 到 底 有 几 个 实例 错 分 ， 可 以 拉动 Jitter 滑 条 ， 会 错开 一 些 相互 县 加 
的 实例 ， 便 于 看 清楚 到 底 有 多 少 个 错 分 的 实例 。 另 一 种 办 法 是 单 击 小 空心 方块 ， 就 会 弹出 
如 图 2.51 所 示 的 实例 信息 ， 显 示 每 个 实例 的 各 属性 值 以 及 预测 类 别 和 真实 类 别 。 


图 2.50 可视化 分 类 错误 散 点 图 图 2.51 实例 信息 
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2. 使 用 分 类 器 预测 未 知 数据 


还 是 使 用 J]48 分 类 器 对 天 气 数据 集 进行 训练 ， 得 到 如 图 2.49 所 示 的 决策 树 。 
现在 构建 一 个 测试 数据 集 ， 用 任意 的 文本 编辑 器 ， 编 辑 如 下 内 容 。 


@relation weather.symbolic 


@attribute outlook {sunny, overcast, rainy} 
@attribute temperature {hot, mild, cool} 
@attribute humidity {high, normal} 
@attribute windy {TRUE, FALSE} 

Q@attribute play {yes, no} 


@data 
rainy, cool, high, FALSE, yes 


将 测试 数据 集 保存 为 weather.nominal.test.arff 文件 。 


然后 ， 在 探索 者 分 类 面板 的 Test options 子 面板 下 ， 选 择 Supplied test set 作为 测试 策 
略 ， 单 击 后 面 的 Set 按钮 ， 打 开 测 试 实例 对 话 框 ， 如 图 2.52 所 示 。 单 击 对 话 框 里 的 Open 
file 按钮 ， 打 开 刚 才 保 存 的 测试 数据 集 weather.nominal.test.arff 文件 ， 单 击 Close 按钮 关闭 


对 话 框 。 


然后 ， 单 击 Test options 子 面板 下 部 的 More option 按钮 ， 打 开 如 图 2.53 所 示 的 分 类 器 
评估 选项 对 话 框 ， 单 击 对 话 框 中 部 的 Choose 按钮 ， 选 择 PlainText 选项 ， 该 选项 使 分 类 器 


的 输出 中 包含 预测 信息 ， 单 击 OK 按钮 关闭 对 话 框 。 


图 2.52 ”测试 实例 对 话 框 图 2.53 分 类 器 评估 选项 对 话 框 


现在 ， 一 切 准备 都 已 就 绪 。 单 击 Start 按钮 启动 分 类 器 训练 和 评估 过 程 ， 像 以 前 那样 ， 
探索 者 在 分 类 器 输出 区 域 输出 性 能 统计 信息 。 仔 细 查 看 ， 会 发 现 多 了 如 下 一 项 对 测试 集 的 


预测 结果 ， 表明 测试 集 仅 有 一 个 实例 ， 预 测 值 和 实际 值 都 为 ys， 预测 没有 错误 。 


一 - Predictions on test set — 


inst# actual predicted error prediction 
1 1l:yes i:yes | 


3. 使 用 决策 规则 

本 示例 使 用 决策 规则 训练 天 气 数 据 集 ， 并 评估 分 类 器 性 能 。 

首先 启动 探索 者 界面 ， 在 预 处 理 面板 中 加 载 weather.nominal.arff 数据 文件 。 切 换 至 分 
类 面板 ， 单 击 Classifier 子 面板 下 的 Choose 按钮 ， 选 择 rules 条 目下 的 JRip 分 类 器 ， 保 持 
默认 参数 不 变 ， 单 击 Start 按钮 启动 训练 ， 训 练 结果 如 图 2.54 所 示 。 
a 


Er swap aaa 


本 ee 


图 2.54 JRip 分 类 器 训练 结果 
经 过 训练 ， 生 成 的 规则 一 共有 如 下 三 条 。 


JRIP rules: 


(humidity = high) and (outlook = sunny) => play=no (3.0/0.0) 
(outlook = rainy) and (windy = TRUE) => play=no (2.0/0.0) 
=> play=yes (9.0/0.0) 


Number of Rules : 3 


每 条 规则 用 “=>” 分 开 规则 前 件 和 规则 后 件 ， 规 则 后 件 有 用 括号 引起 的 两 个 数字 ， 第 
一 个 数字 表示 规则 覆盖 的 实例 数量 ， 第 二 个 数字 表示 错 分 的 实例 数量 。 注 意 到 第 三 条 规则 
的 规则 前 件 为 空 ， 表 示 这 条 规则 覆盖 除去 前 两 条 规则 覆盖 的 训练 实例 外 的 所 有 实例 。 

同样 也 可 以 可 视 化 分 类 错误 。 右 击 结 果 列 表 中 的 mles. JRip 条 目 ， 然 后 从 上 下 文 菜单 
中 选择 Visualize classifier errors 菜单 项 。 会 弹出 一 个 散 点 图 窗口 ， 在 窗口 中 拉动 Jitter 滑 
条 ， 会 错开 一 些 相 互 琶 加 的 实例 ， 如 图 2.55 所 示 。 在 分 类 错误 散 点 图 中 ， 左 上 角 和 右 下 角 
的 小 方块 都 是 正确 分 类 的 实例 ， 左 下 角 的 小 蓝 又 和 右上 角 的 小 红 叉 都 是 错 分 的 实例 ， 可 视 
化 能 直观 看 到 错 分 实例 的 数量 。 

4. 使 用 线性 回归 

本 示例 使 用 线性 回归 训练 CPU 数据 集 ， 并 评估 分 类 器 性 能 。 

首先 启动 探索 者 界面 ， 在 预 处 理 面 板 中 加 载 cpu.arff 数据 文件 。 如 图 2.56 所 示 ， 在 窗 
口 右 下 角 可 以 看 到 第 一 个 属性 MYCT 的 直方 图 ， 由 于 类 别 属性 是 连续 型 数值 ， 因 此 该 直方 
图 不 是 彩色 的 。 
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2.55 ”可 视 化 JRip 分 类 错误 散 点 图 


切换 至 分 类 面板 ， 单 击 Classifier 子 面板 下 的 Choose 按钮 ， 选 择 functions 条 目下 
的 LinearRegression 分 类 器 ， 保 持 默认 参数 不 变 ， 单 击 Start 按钮 启动 训练 ， 训 练 结果 如 


2.57 所 示 。 


CE 3 
二 
] Comm 


EE / 


] Cwm 
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图 2.56 ”加载 CPU 数据 集 


从 结果 中 可 以 看 到 ，LinearRegression 分 类 器 构建 了 一 个 回 


能 不 佳 。 


图 2.57 LinearRegression 训练 结果 
归公 式 ， 交 叉 验 证 显示 其 性 


再 次 单 击 Choose 按钮 ， 选 择 另 一 种 分 类 器 一 一 M5P， 该 分 类 器 在 trees 条 目下 。 还 是 
保持 默认 参数 不 变 ， 单 击 Start 按钮 启动 训练 ， 训 练 结果 如 图 2.58 所 示 。 


从 图 2.58 可 以 看 到 ，M5P 是 决策 树 方案 和 线性 回归 方案 的 结合 


枝 的 决策 树 ， 后 半 部 分 则 使 用 线性 回归 。 如 果 要 稍微 深入 了 解 


。 前 半 部 分 使 用 前 
M5P 算法 的 原理 ， 不 妨 在 


结果 列表 中 单 击 蓝 色 的 条 目 ， 在 弹出 的 上 下 文 菜单 中 选择 Visualize tree 菜单 项 ，Weka 弹 
出 如 图 2.59 所 示 的 决策 树 的 可 视 化 结果 。 剪 枝 模型 树 使 用 数据 集中 六 个 属性 中 的 三 个 进行 
分 又 ， 树 根 对 CHMIN 属性 分 又 ， 在 左 分 支 上 得 到 一 个 线性 模型 一 -LM1， 剩 余 的 结构 放 
到 右 分 支 上 。 继 续 分 又 ， 得 到 另外 的 四 个 线性 模型 一 -LM2 一 LM5。 一 共有 五 个 叶 节 点 ， 
每 个 叶 节点 对 应 一 个 线性 模型 。 括 号 中 有 两 个 数字 ， 第 一 个 数字 是 达到 该 叶子 节点 的 实例 
数量 ， 第 二 个 百分数 是 用 该 叶 节点 的 线性 模型 对 这 些 实例 进行 预测 的 均 方 根 误 差 ， 用 百 分 


比 表示 对 全 部 训练 数据 计算 而 得 到 的 类 别 属 性 的 标准 偏差 。 


[ 国 weka cassferTee Vsualzer1714338-teesM5p (pu 
ee 
<=7.5 >7.5 
<=28000 >28000 
<=81.5 >81.4 
2.58 ”M5P 训练 结果 2.59 M5P 树 


为 了 对 两 个 分 类 器 的 性 能 有 一 个 直观 的 认识 ， 使 用 可 视 化 方法 来 观察 两 个 学 习 方 案 的 
误差 。 在 历史 列表 子 面板 中 分 别 右 击 两 个 条 目 ， 选 择 Visualize classifier errors 菜单 项 ， 得 
到 两 个 学 习 方案 的 可 视 化 误差 如 图 2.60 和 图 2.61 所 示 。 显 示 的 数据 点 随 类 别 属性 值 的 不 
同 而 异 ， 由 于 类 别 属性 是 连续 数值 ， 因 此 数据 点 的 颜色 也 是 连续 变化 的 。 这 里 选择 
MMAX 属性 作为 下 轴 ，CACH 属性 作为 了 轴 ， 这 样 数据 点 能 够 尽量 散 开 。 每 个 数据 点 用 
一 个 小 义 表 示 ， 其 大 小 表示 该 实例 的 误差 的 绝对 值 。 可 以 看 到 ， 图 2.61 的 小 又 数量 多 于 
图 2.60 的 小 又 数量 ， 说 明 M5P 的 性 能 优 于 LinearRegression。 
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图 2.60 LinearRegression 误差 图 2.61 M5P 误差 


5. 使 用 用 户 分 类 器 


用 户 分 类 器 (User ClassifieD 允 许 Weka 用 户 以 交互 方式 建立 自己 的 分 类 器 。 该 分 类 器 
位 于 分 层 菜单 trees 部 分 之 下 ， 名 称 为 User Classifier， 全 名 为 weka.classifiers.trees. 
UserClassifier。 如 果 在 自己 的 Weka 版 本 中 找 不 到 该 分 类 器 ， 说 明 还 没有 安装 ， 请 按照 第 1 
章 Weka 包 管 理 器 的 相关 内 容 进 行 安装 。 

本 例 使 用 segment 数据 集 来 说 明 操作 方式 。 根 据 给 定 平均 intensity( 亮 度 )、hue( 色 调 )、 
size( 大 小 )、position( 位 置 )， 以 及 各 种 简单 的 纹理 特征 的 属性 ， 将 视觉 图 像 数据 分 割 成 各 种 
分 类 标签 ， 如 grass( 草 )、sky( 天 空 )、foliage( 树 叶 )、brick( 砖 ) 和 cement( 水 泥 )。 训 练 数 据 文 
件 随 Weka 软件 配 附 ， 名 称 为 segment-challenge.arff。 加 载 该 数据 文件 ， 选 择 User 
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Classifier 分 类 器 。 

评估 使 用 特殊 的 测试 集 ， 名 为 segment-test.arff， 在 Classify 面板 的 Test options 子 面板 
中 选择 Supplied test set( 提 供 测试 集 ) 选 项 。 这 里 要 注意 ， 用 户 分 类 器 不 能 使 用 交叉 验证 进 
行 评估 ， 因 为 无 法 为 每 个 折 都 手动 构建 分 类 器 。 单 击 Supplied test set 选项 后 面 的 Set 按 
钮 ， 弹 出 Test Instances( 测 试 实例 ) 窗 口 ， 然 后 单 击 Open 
file 按钮 ， 如 图 2.62 所 示 在 标准 的 打开 文件 窗口 中 选择 
data 目录 下 的 segment-test.arff 文件 。 单 击 Close 按钮 关 
闭 测试 实例 窗 

然后 ， 单 击 Weka 探索 者 Classify 标签 页 下 的 Start 
按钮 ， 启 动 交互 构建 分 类 器 的 界面 ， 这 时 ， 探 索 者 界面 
右 下 角 的 小 鸟 站 起 来 不 断 走动 ， 表 明 Weka 正在 等 待 用 图 2.62 选择 测试 集 
户 完成 分 类 器 的 构建 工作 。 

窗口 分 为 Tree Visualizer( 树 可 视 化 工具 ) 和 Data Visualizer( 数 据 可 视 化 工具 ) 两 个 标签 
页 ， 可 以 切换 不 同 的 视图 。 前 者 显示 分 类 树 的 当前 状态 ， 并 且 每 个 节点 都 给 出 到 达 该 节点 
的 每 个 类 别 的 实例 数目 。 构 建 用 户 分 类 器 的 目标 就 是 得 到 一 棵 其 叶 节点 都 尽 可 能 纯净 的 
树 。 最 初 只 有 一 个 根 节点 ， 其 中 包含 全 部 数据 。 切 换 到 Data Visualizer 标签 页 去 创建 分 
割 ， 显 示 了 一 个 二 维 散 点 图 ， 可 以 参考 2.7.31“ 可 视 化 面板 ”的 使 用 方法 ， 选 择 哪个 属性 
作为 对 轴 ， 哪 个 属性 作为 了 轴 。 这 里 的 目标 是 要 找到 一 个 对 轴 和 了 轴 的 属性 组 合 ， 将 不 同 
类 别 尽 可 能 完全 进行 分 离 。 尝 试 多 遍 以 后 ， 读 者 可 能 会 找到 一 个 好 的 选择 : ”使 用 region- 
centroid-row 属性 作为 轴 ， 使 用 intensity-mean 属性 作为 了 轴 ， 这 样 会 将 红色 的 实例 几乎 
完全 与 其 他 实例 分 离 ， 如 图 2.63 所 示 。 

找到 了 很 好 的 分 离 点 之 后 ， 必 须 在 图 中 指定 一 个 区 域 。 在 Jitter 滑 块 之 上 的 下 拉 菜 
单 ， 可 以 选择 四 种 选择 工具 ， 选 择 Select Instance( 选 择 实例 ) 选 项 标识 一 个 特定 实例 ， 选 择 
Rectangle( 矩 形 ) 选 项 在 图 形 上 拖 出 一 个 矩形 ;选择 Polygon( 多 边 形 ) 选 项 画 一 个 自由 形状 的 
多 边 形 ; 选择 Polyline( 折 线 ) 选 项 画 一 种 自由 形状 的 折线 。 操 作 方 式 都 是 ， 单 击 添加 了 一 个 
顶点 ， 右 击 完成 操作 。 一 旦 选择 某 个 区 域 ， 该 区 域 会 变 成 灰色 。 在 图 2.63 中 ， 用 户 已 经 定 
义 好 了 一 个 和 矩形。 如 果 单 击 Submit( 提 交 ) 按 钮 ， 则 在 树 中 创建 两 个 新 的 节点 ， 一 个 节点 容 
纳 选 定 的 实例 ， 另 一 个 节点 容纳 其 余 的 实例 。Clear( 清 除 ) 按 钮 清除 选择 ，Save( 保 存 ) 按 钮 
将 当前 树 的 节点 实例 保存 为 一 个 ARFF 文件 。 

这 时 ，Tree Visualizer 标签 页 显示 如 图 2.64 所 示 的 树 。 左 边 的 节点 表示 sky 类 别 ， 纯 
粹 只 有 一 种 类 别 ， 但 右边 的 节点 还 是 混合 了 多 个 分 类 ， 需 要 进一步 进行 分 割 。 单 击 不 同 节 
点 ， 可 以 在 Data Visualizer 标签 页 中 切换 显示 哪个 数据 子 集 。 继 续 添加 节点 ， 直 到 得 到 满 
意 的 结果 ， 也 就 是 说 ， 直 到 叶子 节点 大 多 是 只 有 一 种 分 类 的 纯 节 点 为 止 。 然 后 ， 在 Tree 
Visualizer 标签 页 的 任意 空白 处 右 击 ， 并 选择 Accept the Tree (接受 树 ) 菜单 项 。Weka 使 用 
测试 集 评估 建立 的 树 ， 并 输出 性 能 统计 信息 。 对 于 本 例 ，90% 已 经 是 很 高 的 得 分 了 。 

这 是 非常 考验 细心 和 耐心 的 工作 ， 如 果 能 得 到 93% 以 上 成 绩 真 值得 骄傲 。 

现在 和 Weka 的 机 器 学 习 比 试 一 下 。 还 是 使 用 同样 的 训练 集 和 测试 集 ， 但 选择 J48 分 
类 器 来 替换 用 户 分 类 器 ， 单 击 Start 按钮 启动 训练 和 评估 ， 本 例 J48 分 类 器 的 正确 率 高 达 
96.1728 %， 的 确 是 手工 交互 进行 分 类 难以 达到 的 目标 。 
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图 2.63 数据 可 视 化 工具 图 2.64 树 可 视 化 工具 


6. 使 用 支持 向 量 机 

本 示例 分 为 两 个 部 分 ， 第 一 部 分 展示 如 何 使 用 SMO 分 类 器 ， 第 二 部 分 展示 如 何 使 用 
LibSVM。 

启动 探索 者 界面 ， 首 先 在 预 处 理 面板 中 加 载 iris 数据 集 ， 然 后 切换 至 分 类 面板 ， 单 击 
Classifier 子 面 板 下 的 Choose 按钮 ， 选 择 functions 条 目下 的 SMO 分 类 器 ， 使 用 默认 的 十 
折 交 叉 验 证 测试 选项 ， 单 击 Start 按钮 启动 分 类 模型 构建 并 评估 ， 运 行 结果 如 图 2.65 所 示 。 


2.65 ”SMO 运行 结果 


本 例 使 用 指数 为 1 的 PolyKernel( 多 项 式 核 )， 使 得 模型 成 为 线性 支持 向 量 机 。 由 于 iris 
数据 包含 三 个 类 别 值 ， 就 输出 三 个 对 应 的 二 元 SMO 模型 ， 这 是 因为 一 个 超 平面 分 隔 每 个 
可 能 类 别 值 对 。 此 外 ， 由 于 SVM 是 线性 的 ， 超 平面 表示 为 在 原来 空间 中 的 属性 值 的 函 
数 ， 参 见 图 2.65 中 的 函数 表达 式 。 

2.66 所 示 的 是 将 多 项 式 核 函 数 的 指数 设置 为 2 的 结果 ， 这 使 得 支持 向 量 机 成 为 非 线 
性 的 。 和 前 面 一 样 ， 也 有 三 个 二 元 的 SMO 模型 ， 但 这 次 超 平面 表示 为 支持 向 量 的 函数 。 
支持 向 量 显示 在 尖 括 号 中 ， 还 显示 其 系数 w 的 值 。 在 每 个 函数 的 最 后 ， 显 示 偏 移 量 参数 的 
值 太 等 同 于 oo)， 参 见 图 2.66 中 的 函数 表达 式 。 
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图 2.66 指数 设置 为 2 的 结果 
2.67 为 两 次 实验 的 混淆 矩阵 。 比 较 后 容易 得 出 ， 两 次 实验 使 用 的 是 不 同 的 多 项 式 


核 ， 使 得 支持 向 量 机 一 个 为 线性 ， 另 一 个 为 非 线 性 ， 但 对 于 本 例 来 说 ， 尽 管 错 分 的 实例 不 
同 ， 但 两 者 错 分 的 实例 数 都 是 6 个 。 


=== Confusion Matrix === === Confusion Matrix === 
ab c <-- classified as a b ce <-- classified as 
50 0 0 1 aw= Iiris-setosa 50 0 0| a= Iris-setosa 
049 11 b= Iris-versicolor 047 3 1 b= Iris-versicolor 
0 5451 c= Iris-virginica 0 347| c= Iris-virginica 
(a) 指数 为 1 (b) 指数 为 2 


2.67 ”两 次 实验 的 混淆 矩阵 


LibSVM 是 台湾 林 智 仁 (Chih-Jen Lin) 教 授 于 2001 年 开发 的 一 套 支持 向 量 机 的 库 ， 网 址 
为 http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 。 该 库 运 算 速 度 非常 快 并 且 开 源 ， 支 持 Java、 
C#、.Net、Python、MATLAB 等 多 种 语言 ， 因 此 非常 受 欢 迎 。 

Weka 3.7.2 以 后 的 版 本 都 直接 支持 LibSVM， 包 装 LibSVM 的 工作 由 Yasser EL- 
Manzalawy 完成 ， 网 址 为 http://www.cs.iastate.edu/~yasser/wlsvm/。 最 重要 的 类 就 是 包装 
libsvm 工具 的 包装 类 一 一 LibSVM， 由 于 使 用 LibSVM 构建 SVM 分 类 器 ， 因 此 它 比 SMO 
运行 快 得 多 。 并 且 LibSVM 可 以 支持 One-class SVM、Regressing SVM 以 及 nu-SVM。 

下 面 简单 说 明 实验 步骤 。 如 果 没 有 安装 LibSVM， 请 关闭 包括 探索 者 在 内 的 Weka 图 
形 用 户 界 面 ， 然 后 按照 第 1 章 包 管理 器 的 步骤 安装 LibSVM， 当 前 LibSVM 包 的 版 本 为 
1.0.3。 然 后 启动 探索 者 ， 加 载 iris 数据 集 ， 选 择 LibSVM 分 类 器 ， 然 后 单 击 Start 按钮 运 
行 ， 结 果 如 图 2.68 所 示 。 可 以 看 到 ，LibSVM 错 分 的 实例 数量 仅 有 5 个 ， 比 前 文 的 SMO 
性 能 稍 好 。 


7. 使 用 元 学 习 器 


元 学 习 器 能 将 简单 的 分 类 器 变 为 更 加 强大 的 学 习 器 ， 这 里 以 实例 进行 说 明 。 
首先 加 载 芒 尾 花 数据 集 ， 然 后 选择 DecisionStump 分 类 器 ， 这 是 一 个 称 为 决策 树桩 的 
简单 分 类 器 ， 全 名 为 Weka.classifiers.trees.DecislonStump 。 然后 选择 十 折 交 叉 验 证 为 测试 选 


项 进行 训练 和 评估 ， 得 到 的 分 类 正确 率 为 66.6667 %。 


2.68 LibSVM 运行 结果 


接 下 来 ， 选 择 AdaboostM1 分 类 器 ， 这 是 一 个 使 用 提升 算法 的 集成 学 习 器 ， 其 全 名 为 
weka.classifiers.meta.AdaBoostM1。 单 击 该 分 类 器 进行 配置 ， 出 现 如 图 2.69 所 示 的 对 象 编 
辑 器 。 为 了 和 DecisionStump 分 类 器 进行 比较 ， 设 置 AdaboostM1 的 基 分 类 器 为 
DecisionStump 分 类 器 。 如 果 需 要 ， 还 可 以 继续 单 击 以 进一步 配置 基 分 类 器 的 选项 ， 但 由 于 
DecisionStump 刚好 没有 可 编辑 的 属性 。 因 此 ， 单 击 OK 按钮 返回 到 主 分 类 面板 ， 并 且 单 击 
Start 按钮 启动 训练 。 
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FE EE 加 3 
图 2.69 AdaboostM1 分 类 器 选项 
由 于 图 2.69 中 的 numIterations 参数 默认 为 10， 也 就 是 训练 会 迭代 提升 DecisionStump 
分 类 器 10 次 。 图 2.70 的 运行 结果 表明 ， 在 150 个 iris 数据 中 ， 只 有 7 个 错 分 的 实例 ， 分 
类 正确 率 高 达 95.3333 %。 
考虑 到 DecisionStump 算法 本 来 就 十 分 原始 ， 并 且 只 经 过 很 少 次 数 的 提升 迭代 ， 性 能 
提高 很 大 ， 令 人 满意 。 
8. 深入 研究 离散 化 
本 节 研 究 离 散 化 的 效果 ， 加 载 ionosphere.arff 数据 文件 构建 J48 决策 树 。 该 数据 集 包 
含 从 电离 层 传 回 的 雷达 信号 信息 。 数 据 集 共有 34 个 属性 外 加 1 个 类 别 属性 ， 共 有 351 个 
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实例 ， 没 有 缺失 值 。 二 元 类 别 标签 分 别 是 good 和 bad， 其 中 ，“ 好 ”的 样本 指 那些 能 够 显 
示 出 电离 层 中 的 一 些 结构 类 型 证 据 的 实例 ， 而 “ 坏 ” 的 样本 指 信号 直接 穿 过 电离 层 的 实 
例 。 更 为 详细 的 信息 可 以 查看 ARFF 文件 中 的 注释 。 


CI em 


图 2.70 AdaboostM1 分 类 器 运行 结果 


首先 以 无 监督 离散 化 开始 ， 采 用 十 折 交 叉 验 证 ， 比 较 不 同学 习 方案 的 正确 率 以 及 决策 
树 的 大 小 。 采 用 J48 分 类 器 对 原始 数据 进行 分 类 ， 正 确 分 类 的 实例 数量 为 321， 正 确 率 为 
91.453%， 叶 节点 数 为 18， 树 的 大 小 为 35; 然后 使 用 无 监督 的 Discretize 过 滤器 ， 保 持 过 
滤器 参数 为 默认 值 ， 先 进行 过 滤 ， 再 采用 J48 分 类 器 对 过 滤 后 的 数据 进行 分 类 ， 正 确 分 类 
的 实例 数量 为 304， 正 确 率 为 86.6097%， 叶 节点 数 为 46， 树 的 大 小 为 51; 最 后 将 无 监督 
Discretize 过 滤器 的 makeBinary 参数 设置 为 True， 其 余 参 数 仍 为 缺 省 值 ， 先 进行 过 滤 ， 再 
采用 J48 分 类 器 对 过 滤 后 的 数据 进行 分 类 ， 正 确 分 类 的 实例 数量 为 326， 正 确 率 为 
92.8775%， 叶 节点 数 为 9， 树 的 大 小 为 17。 无 监督 离散 化 的 效果 如 表 2.3 所 示 。 


表 2.3 无 监督 离散 化 效果 


正确 分 类 实例 数 | 分 类 正确 率 | 叶 节 点 数 | 树 的 大 小 


945% |1s |3s 
无 监督 的 

. . False J48 304 86.6097% 51 
Discretize 
无 监督 的 

本 True J48 326 92.8775% 17 
Discretize 


研究 表 2.3 的 结果 ， 可 以 得 出 这 样 的 结论 : 使 用 二 元 化 的 无 监督 离散 化 ， 可 以 提高 分 
类 器 的 正确 率 ， 并 大 幅 减少 决策 树 的 大 小 。 

现在 轮 到 有 监督 离散 化 。 这 里 出 现 一 个 微妙 的 问题 ， 如 果 简 单 地 重复 使 用 有 监督 离散 
化 方法 替换 无 监督 离散 化 ， 结 果 必 然 过 于 乐观 。 因 为 这 里 将 交叉 验证 用 于 评价 ， 测 试 集 里 
的 数据 在 确定 离散 间隔 时 已 经 使 用 过 ， 必 然 造成 如 同 预先 偷 看 到 答案 再 考试 的 效果 。 对 于 
新 的 数据 ， 这 就 无 法 给 出 一 个 合理 的 性 能 评估 。 

要 合理 地 评估 有 监督 离散 化 ， 最 好 使 用 Weka 的 元 学 习 器 FilteredClassifier。 它 仅 使 用 


训练 数据 来 构建 过 滤器 ， 然 后 ， 使 用 训练 数据 计算 得 到 的 离散 间隔 来 离散 化 测试 数据 ， 并 
予以 评估 。 总 之 ， 这 种 方式 完全 符合 在 真实 实践 中 处 理 新 数据 的 过 程 。 

仍然 使 用 ionosphere.arff 数据 文件 ， 取 消 在 过 滤器 标签 页 中 选择 的 过 滤器 ， 并 在 分 类 器 
标签 页 中 选择 FilteredClassifier 分 类 器 ， 其 全 名 为 weka.classifiers meta FilteredClassifier。 设 
置 该 分 类 器 的 classifier 为 48，filter 为 有 监督 的 Discretize， 保 持 默 认 参 数 不 变 ， 如 图 2.71 
所 示 。 


About 
Class for running an arbitrary classifier on data that has been i 
passed through an arbitrary fiter. 
Cailities 
classifier Cheose |J48 -CO025-02 | 
sae ruse 司 
filter Cheose |Diseretire -R first-last | 
Open Suve Ok Cancel 


2.71 使 用 FilteredClassifier 分 类 器 

这 时 ， 单 击 Start 按钮 启动 训练 及 评估 ， 得 到 输出 结果 : 正确 分 类 的 实例 数量 为 320， 
正确 率 为 91.1681%， 叶 节点 数 为 21， 树 的 大 小 为 27。 然 后 ， 修 改 FilteredClassifier 分 类 器 
的 filter 参数 ， 将 有 监督 Discretize 的 makeBinary 参数 设置 为 True， 其 余 参数 仍 为 缺 省 
值 ， 输 入 框 中 的 命令 行 应 该 是 Discretize -D -R first-last。 再 次 单 击 Start 按钮 ， 得 到 输出 结 
果 : 正确 分 类 的 实例 数量 为 325， 正 确 率 为 92.5926%， 叶 子 节点 数 为 9， 数 的 大 小 为 17。 
有 监督 离散 化 的 效果 如 表 2.4 所 示 。 

表 2.4 有 监督 离散 化 效果 


时 节点 数 | 树 的 大 小 


[ms Os om lle | 3 


有 监督 的 


. J48 320 91.1681% 27 
Discretize 


有 监督 的 
Discretize 
仍然 可 以 得 出 这 样 的 结论 : 使 用 三 元 化 的 有 监督 离散 化 ， 可 以 提高 分 类 器 的 正确 率 ， 
并 大 幅 减 少 决策 树 的 大 小 。 
9. 初 识 最 近邻 分 类 器 
本 节 使 用 IBk 分 类 器 ， 这 是 一 种 k- 最 近邻 分 类 器 ， 既 可 以 在 交叉 验证 的 基础 上 选择 合 
适 的 大 值 ， 也 可 以 加 距离 权重 。 
在 探索 者 界面 中 加 载 glass.arff 数据 集 ， 切 换 至 Classify 面板 ， 单 击 Choose 按钮 选择 
IBk 分 类 器 ， 其 全 名 为 weka.classifiers.lazy.IBk。 使 用 交叉 验证 测试 该 分 类 器 的 性 能 ， 使 用 
交叉 验证 ， 保 持 折 数 为 默认 值 10。IBk 的 选项 都 保持 为 默认 值 ， 这 里 要 注意 的 参数 是 


325 92.5926% 17 
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KNN，KNN 值 默认 为 1， 这 是 分 类 时 所 用 的 近邻 实例 的 数量 。 

单 击 Start 按钮 运行 一 次 分 类 算法 ， 记 录 正 确 分 类 的 百分比 ， 其 值 为 70.5607%。 然 
后 ， 修 改 KNN 值 为 5， 再 次 运行 分 类 算法 ， 记 录 正 确 分 类 的 百分比 ， 其 值 为 67.757%， 如 
图 2.72 所 示 。 
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图 2.72 IBk 分 类 器 


可 见 ， 将 KNN 值 由 1 增 大 至 5 后 ，IBK 准确 度 稍微 有 所 下 降 。 从 这 个 示例 中 ， 读 者 可 
能 会 凭 直觉 得 出 KNN 值 越 小 越 好 的 结论 ， 事 实 真是 这 样 吗 ? 且 看 后 文 。 


10. 分 类 噪声 与 最 近邻 学 习 


和 其 他 技术 一 样 ， 最 近邻 学 习 对 训练 数据 中 的 噪声 很 敏感 。 在 本 节 中 ， 将 大 小 不 等 的 
分 类 噪声 注入 数据 中 ， 并 观察 其 对 分 类 器 性 能 的 影响 。 

本 节 使 用 一 种 称 为 AddNoise 的 无 监督 的 属性 过 滤器 来 添加 噪声 ， 该 属性 过 滤器 位 于 
weka.filters.unsupervised.attribute 包 中 ， 使 用 该 过 滤器 ， 可 以 将 数据 中 一 定 比例 的 类 别 标签 
翻转 为 随机 选择 的 其 他 值 。 然 而 ， 对 于 本 次 实验 ， 最 重要 的 是 要 保证 测试 数据 不 受 分 类 噪 
声 的 影响 ， 这 样 才能 得 到 可 靠 的 评估 结果 。 很 多 实际 情况 都 要 求 过 滤 训 练 数据 ， 但 不 能 过 
滤 测 试 数据 ， 满 足 这 种 要 求 的 元 学 习 器 称 为 FilteredClassifier， 位 于 weka.classifiers.meta 包 
中 。 本 例 将 该 元 学 习 器 配置 为 使 用 IBk 作为 分 类 器 ， 使 用 AddNoise 作为 过 滤器 。 在 运行 
学 习 算法 之 前 ，FilteredClassifier 先 对 数据 应 用 过 滤器 过 滤 ， 分 两 批 完成 : 先 训练 数据 ， 后 
测试 数据 。AddNoise 过 滤器 只 在 遇 到 的 首 批 数据 中 添加 噪声 ， 也 就 是 说 ， 随 后 的 测试 数据 
在 通过 时 不 受 任何 影响 。 

还 是 使 用 玻璃 数据 集 ， 在 Classify 面板 中 选择 FilteredClassifier 分 类 器 ， 然 后 打开 通用 
对 象 编辑 器 编辑 该 分 类 器 的 参数 ， 选 择 classifier 为 IBk，filter 参数 为 AddNoise， 如 图 2.73 
所 示 。 

修改 IBk 分 类 器 的 邻居 数量 KNN 参数 ， 分 别 设置 为 k = 1，k = 3, 大 = 5。 同 时 修改 
AddNoise 过 滤器 的 分 类 噪声 百分比 percent 参数 ， 从 0%、10% 一 直到 100%。 每 次 设置 完 
毕 后 ， 单 击 Start 按钮 启动 训练 和 评估 ， 将 得 到 的 分 类 正确 率 填 入 表 2.5 中 。 
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2.73 FilteredClassifier 分 类 器 参数 
表 2.5 不 同 近邻 数量 及 噪声 对 于 IBk 的 影响 


噪声 百分比 k=3 k=5 


0% 


20% 
30% 
40% 
50% 
60% 
70% 
30% 
90% 
100% 


表 2.5 供 读者 自行 完成 。 为 了 便于 说 明 问 题 ， 在 表 2.6 中 列 出 答案 ， 并 在 图 2.74 中 夯 
出 对 应 的 折线 图 。 


和 并 
中 
= 


表 2.6 不 同 近邻 数量 及 噪声 对 于 IBk 的 影响 答案 


噪声 百分比 k=1 k=3 k=5 
0% 95.3333% 95.3333% 
10% 84% 94% 
20% 74.6667% 91.3333% 
30% 67.3333% 83.3333% 
40% 60% 75.3333% 78.6667% 
50% 49.3333% 60.6667% 60.6667% 
60% 40.6667% 46% 43.3333% 
70% 29.3333% 29.3333% 24% 
80% 21.3333% 22% 14% 
90% 10% 9.3333% 4% 
100% 3.3333% 3.3333% 0.6667% 
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图 2.74 ”不同 近邻 数量 及 噪声 对 1Bk 的 影响 


在 图 2.74 的 折线 图 中 ， 横 坐标 为 噪声 ， 纵 坐标 为 分 类 准确 率 。 对 折线 图 进行 分 析 ， 容 
易 得 到 如 下 结论 : 

第 一 ， 当 噪声 增 大 时 ， 分 类 准确 率 随 之 下 降 ; 

第 二 ， 改 变 上 值 ， 对 分 类 正确 率 的 影响 较为 复杂 。 当 分 类 噪声 百分比 较 小 ( 低 于 60%) 
时 ， 增 大 大 值 会 增加 分 类 准确 率 ; 但 分 类 噪声 百分比 较 大 ( 约 高 于 60%) 时 ， 增 大 值 会 降 
低 分 类 准确 率 。 


11. 研究 改变 训练 集 大 小 的 影响 


本 节 讨 论 学 习 曲 线 ， 显 示 训 练 数据 量 逐 渐 增加 后 的 效果 。 同 样 使 用 玻璃 数据 集 ， 但 这 
一 次 使 用 IBk 以 及 在 Weka 中 的 实现 为 J48 的 C4.5 决策 树 学 习 器 。 

获取 学 习 曲 线 ， 再 次 使 用 FilteredClassifier 分 类 器 ， 这 一 次 结合 Resample (其 全 称 为 
weka.filters.unsupervised.instance.Resample) 过 滤器 ， 其 功能 是 抽取 出 给 定 的 一 定 比 例 的 数据 
集 ， 返 回 减少 后 的 数据 集 。 与 上 一 个 示例 相同 ， 只 为 第 一 批 训练 数据 应 用 过 滤器 ， 所 以 测 
试 数据 通过 FilteredClassifier 分 类 器 到 达 分 类 器 之 前 ， 并 不 会 受 任何 修改 。 

具体 步骤 是 ， 首 先 加 载 玻璃 数据 集 ， 然 后 选择 FilteredClassifier 分 类 器 ， 打 开通 用 对 
象 编辑 器 编辑 该 分 类 器 的 参数 ， 分 别 选 择 classifier 为 IBk 和 J48，filter 参数 为 Resample， 
如 图 2.75 所 示 。 

选择 classifier 为 IBk(f=1) 或 J48。 同 时 修改 Resample 过 滤器 的 子 样本 大 小 百分比 
sampleSizePercent 参数 ， 从 10% 一 直到 100%。 每 次 设置 完毕 后 ， 单 击 Start 按钮 启动 训练 
和 评估 ， 将 得 到 的 分 类 正确 率 填 入 表 2.7 中 。 

表 2.7 供 读者 自行 完成 。 为 了 便于 说 明 ， 在 表 2.8 中 列 出 答案 。 并 在 图 2.75 中 画 出 对 
应 的 折线 图 。 
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2.75 ”FilteredClassifier 分 类 器 参数 
表 2.7 改变 训练 集 大 小 对 IBk 和 J48 的 影响 


训练 集 百 分 比 IBk J48 
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表 2.8 改变 训练 集 大 小 对 1Bk 和 J48 的 影响 答案 


司 洱 Jaioldxd 姑 Z 洪 但 


训练 集 百 分 比 IBk J48 

10% 52.8037% 45.3271% 
20% 63.5514% 53.271% 

30% 60.2804% 59.3458% 
40% 63.5514% 64.9533% 
50% 62.6168% 63.0841% 
60% 64.486% 69.1589% 
70% 65.8879% 67.757% 

80% 67.757% 70.0935% 
90% 67.2897% 69.1589% 
100% 66.8224% 68.2243% 


在 图 2.76 中 横 坐 标 为 训练 集 大 小 ， 纵 坐标 为 分 类 准确 度 。 容 易 从 中 得 到 以 下 结论 。 
第 一 ， 当 增 大 训练 数据 量 时 ， 分 类 准确 率 随 之 增加 。 
第 二 ， 相 对 于 IBk， 增 大 训练 数据 量 对 J48 的 影响 更 为 显著 。 
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图 2.76 改变 训练 集 大 小 的 影响 折线 图 


2.4 聚 类 


聚 类 就 是 对 物理 对 象 或 抽象 对 象 的 集合 进行 分 组 的 过 程 ， 所 生成 的 组 称 为 通 
(ClusteD ， 筷 是 数据 对 象 的 集合 。 筷 内 部 任意 两 个 对 象 之 间 应 该 具有 较 高 的 相似 度 ， 而 属 
于 不 同 艇 的 两 个 对 象 之 间 应 该 具有 较 高 的 相 异 度 。 相 异 度 一 般 根据 描述 对 象 的 属性 值 进 行 
计算 ， 最 常 采用 的 度量 指标 是 对 象 间 的 距离 。 

Weka 专门 使 用 一 个 聚 类 面板 来 处 理 聚 类 问题 ， 如 图 2.77 所 示 。 


a 


图 2.77 聚 类 面板 


在 该 面板 中 ， 选 择 和 配置 对 象 的 过 程 与 过 滤器 和 分 类 面板 的 操作 类 似 ， 下 面 对 操 作 方 
法 进行 说 明 。 


2.4.1 聚 类 面板 操作 
聚 类 面板 选择 和 配置 对 象 的 过 程 与 过 滤器 和 分 类 器 面板 的 操作 类 似 。 在 聚 类 面板 的 最 
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上 部 是 Clusterer( 聚 类 器 ) 子 面板 ， 子 面板 内 有 一 个 Choose 按钮 和 一 个 文本 框 。 按 钮 上 用 于 
选择 Weka 提供 的 聚 类 器 ， 文 本 框 用 于 显示 当前 选择 的 聚 类 器 的 名 称 和 参数 。 单 击 文本 框 
会 弹出 一 个 通用 对 象 编辑 器 对 话 框 ， 与 过 滤器 和 分 类 器 的 对 象 编辑 器 对 话 框 的 功能 一 样 ， 
可 以 用 来 对 当前 聚 类 器 进行 设置 。 右 击 (或 用 Alt + Shiftt+ 单 击 ) 聚 类 器 文本 输入 框 会 弹出 一 
个 菜单 ， 择 菜单 项 可 以 让 用 户 修改 设置 ， 或 将 当前 的 设置 字符 串 复制 到 剪贴 板 ， 或 直接 输 
入 设置 字符 串 ， 功 能 与 过 滤器 和 分 类 器 的 相似 。 

在 聚 类 面板 的 左 部 是 Clusterer options( 聚 类 器 选项 ) 子 面板 。 该 子 面板 是 为 了 设置 聚 类 
模式 及 如 何 评估 结果 的 选项 ， 最 终 将 设置 的 选项 应 用 到 当前 选择 的 聚 类 器 中 。 聚 类 模式 
如 下 。 

(1) Use training set( 使 用 训练 集 )。 直 接 将 训练 集 实例 用 于 测试 。 

(2) Supplied test set( 提 供 测 试 集 )。 从 一 个 文件 中 加 载 一 组 测试 实例 。 单 击 “Set...” 按 
钮 会 弹出 一 个 对 话 框 ， 允 许 用 户 选 择 测试 的 实例 文件 。 

(3) Percentage split( 分 割 百分比 )。 在 数据 集中 ， 取 出 特定 百分比 的 数据 来 作为 训练 数 
据 ， 其 余数 据 作 为 测试 数据 ， 评 价 聚 类 器 的 性 能 。 取 出 的 数据 量 取决 于 用 户 在 “%” 文 本 
框 中 输入 的 值 。 

(4) Classes to clusters evaluation( 类 别 作 为 簇 的 评估 准则 )。 比 较 所 选择 的 艇 与 预先 指定 
的 数据 类 别 的 匹配 程度 。 该 选项 下 面 有 一 个 下 拉 框 ， 与 在 分 类 面板 中 选择 类 别 属 性 操作 
一 样 。 

(5) Store clusters for visualization( 为 可 视 化 保存 簇 )。 选 中 此 复 选 框 ， 在 训练 完成 后 ， 保 
存 簇 以 供 可 视 化 使 用 。 当 处 理 很 大 的 数据 集 遇 到 内 存 不 足 的 问题 时 ， 禁 用 此 选项 可 能 会 有 
帮助 。 

通常 情况 下 ， 在 聚 类 过 程 中 可 以 设置 忽略 一 些 数据 属性 。 单 击 Ignore attributes( 忽 略 属 
性 ) 按 钮 ， 会 弹出 一 个 小 窗口 ， 让 用 户 选择 要 忽略 哪些 属性 。 单 击 窗口 中 的 属性 使 其 高 亮 ， 
按 住 Shift 键 选 择 连续 范围 的 属性 ， 按 住 Ctrl 键 选择 或 反选 单个 属性 。 要 取消 选择 ， 单 击 
Cancel 按钮 ， 要 激活 选择 ， 单 击 Select 按钮 。 下 一 次 运行 聚 类 算法 时 ， 会 忽略 选择 的 属性 。 

FilteredClusterer 元 聚 类 器 是 一 种 特殊 的 聚 类 器 ， 它 为 用 户 提供 在 聚 类 器 学 习 之 前 先 应 
用 过 滤器 。 使 用 这 种 方法 ， 不 需要 在 预 处 理 面板 中 手动 应 用 过 滤器 时 ， 在 学 习 的 同时 进行 
数据 处 理 ， 这 在 需要 使 用 不 同 的 过 滤器 设置 方式 时 十 分 有 用 。 

和 分 类 面板 类 似 ， 聚 类 面板 也 有 Start 按钮 和 Stop 按钮 。 单 击 Start 按钮 开始 学 习 ， 学 
习 结 果 会 显示 在 聚 类 器 输出 文本 区 ， 并 在 结果 列表 中 创建 一 个 新 条 目标 ， 右 击 该 条 目 ， 

会 带 出 类 似 的 弹出 式 菜单 ， 不 同 的 是 这 里 只 显示 两 个 可 视 化 选项 一 一 Visualize cluster 
assignments( 可 视 化 簇 的 分 配 ) 和 Visualize tree( 可 视 化 树 )， 后 者 在 不 可 用 时 会 变 灰 。 


2.4.2 聚 类 算法 介绍 

本 节 介 绍 三 种 简单 但 重要 的 聚 类 算法 。k 均值 是 基于 原型 的 、 划 分 的 聚 类 技术 ， 试 图 
划分 用 户 指定 个 数 为 大 的 徐 。EM(ExpectationMaximization， 期 望 最 大 化 ) 是 有 均值 方法 的 
一 种 扩展 ， 它 不 把 对 象 分 配给 一 个 确定 的 簇 ， 而 是 根据 对 象 与 徐 之 间 的 隶属 关系 发 生 的 概 
率 来 分 配对 象 。EM 算法 是 解决 数据 缺失 问题 的 一 种 出 色 算法 。DBSCAN 是 一 种 基于 密度 
的 聚 类 算法 ， 簇 的 个 数 由 算法 自动 确定 。 将 低 密度 区 域 中 的 点 视 为 噪声 而 忽略 ， 因 此 
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DBSCAN 不 产生 完全 聚 类 。 
1.k 均 值 算法 


均值 算法 比较 简单 ，k 是 用 户 指定 的 所 期 望 的 簇 个 数 。 基 本 算法 是 ， 首 先 选 择 上 个 初 
始 质 心 ， 将 每 个 点 指派 给 最 近 的 质心 ， 指 派 给 一 个 质心 的 全 部 点 形成 一 个 徐 。 然 后 根据 指 
派 给 簇 的 点 ， 更 新 每 个 簇 的 质心 。 重 复 指派 及 更 新 步骤 ， 直 到 簇 不 再 发 生变 化 ， 即 质心 不 
再 发 生变 化 为 止 。 算 法 的 伪 代 码 如 算法 2.7 所 示 。 
算法 2.7 基本 下 均值 算法 
选择 大 个 点 作为 初始 质心 
repeat 
将 每 个 点 指派 给 最 近 的 质心 ， 形 成 k 个 能 
重新 计算 每 个 簇 的 质心 
until 质心 不 再 发 生变 化 
相似 度 的 计算 可 采用 欧 氏 距离 或 曼哈顿 距离 。 其 中 ， 欧 氏 距 离 就 是 两 点 之 间 的 欧 氏 空 
间 直 线 距离 ， 而 曼哈顿 距离 是 在 欧 氏 空间 固定 直角 坐标 系 上 两 点 所 形成 的 线段 对 轴 产 生 的 
投影 的 距离 总 和 。 
考虑 临近 度 为 欧 氏 距离 的 数据 ， 通 常 使 用 误差 的 平方 和 (Sum of the Squared Error，SSE) 
作为 度量 聚 类 质量 的 目标 函数 。SSE 定义 如 下 : 
SSE = Ddist(c,, x) 


其 中 ，dist 表示 两 个 对 象 之 间 的 标准 欧 氏 距离 (I)，ci 为 簇 i 的 质心 ，x 为 属于 簇 i 的 数据 点 
的 集合 。 

Weka 提供 采用 大 均值 算法 聚 类 的 SimpleKMeans。 簇 的 数目 由 参数 指定 ， 用 户 可 以 选 
择 欧 氏 距离 或 曼哈顿 距离 作为 距离 度量 。 如 果 使 用 曼哈顿 距离 ， 该 算法 实际 使 用 kk 中 位 数 
算法 ， 而 非 上 均值 算法 ， 质 心 基于 中 位 数 而 不 是 均值 以 最 小 化 簇 内 的 距离 函数 。 

2. EM 算法 

EM(Expectation Maximization， 期 望 最 大 化 ) 算 法 是 在 概率 模型 中 寻找 参数 最 大 似 然 估 
计 或 者 最 大 后 验 估计 的 算法 ， 其 中 概率 模型 依赖 于 无 法 观测 的 隐藏 变量 。EM 算法 经 常用 
在 机 器 学 习 和 数据 聚 类 领域 。 

EM 算法 使 用 两 个 步 又 交替 进行 计算 。 第 一 步 是 计算 期 望 (2)， 利 用 对 隐藏 变量 的 现 有 
估计 值 ， 计 算 其 最 大 似 然 估 计 值 ， 第 二 步 是 最 大 化 (M)， 最 大 化 在 E 步 上 求 得 的 最 大 似 然 
值 来 计算 参数 的 值 。 然 后 将 M 步 上 找到 的 参数 估计 值 用 于 下 一 个 E 步 计 算 中 ， 这 个 过 程 
不 断交 替 进 行 直 至 收敛 。 

通过 交 蔡 使 用 这 两 个 步骤 ，EM 算法 逐步 改进 模型 的 参数 ， 使 参数 和 训练 样本 的 似 然 
概率 逐渐 增 大 ， 最 后 终止 于 一 个 极 大 点 。 

EM 算法 的 主要 目的 是 提供 一 个 简单 的 迭代 算法 计算 后 验 密度 函数 ， 它 的 最 大 优点 是 
简单 和 稳定 ， 但 容易 陷入 局 部 最 优 。 

Weka 提供 简单 的 EM。EM 为 每 个 实例 分 配 一 个 概率 分 布 ， 表 明 它 属于 每 一 个 簇 的 概 
率 。EM 能 决定 用 交叉 验证 创建 多 少 个 徐 ， 或 者 指定 产生 多 少 个 簇 的 先 验 。 


3. DBSCAN 算法 


基于 密度 的 聚 类 寻找 由 低 密度 区 域 分 割 的 高 密度 区 域 。DBSCAN 是 一 种 简单 、 有 效 的 
基于 密度 的 聚 类 算法 ， 它 诠释 了 基于 密度 的 聚 类 算法 的 很 多 重要 概念 。 首 先 定义 几 个 术语 。 

(1) 核心 点 (Core Poinb: 核心 点 位 于 基于 密度 的 入 的 内 部 。 点 的 邻 域 由 距离 函数 和 用 
户 指定 的 距离 Eps 决定 。 核 心 点 的 定义 是 ， 如 果 该 点 的 给 定 邻 域内 的 点 的 个 数 超过 给 定 的 
闵 值 MinPts，MinPts 由 用 户 指定 。 

(2) 边界 点 (Border Point): 边界 点 不 是 核心 点 ， 但 落 在 某 个 核心 点 的 邻 域内 。 

(3) 噪声 点 (Noise PoinD: 既 不 是 核心 点 又 不 是 边界 点 的 点 称 为 噪声 点 。 

DBSCAN 算法 的 伪 代 码 如 算法 2.8 所 示 。 任 意 两 个 足够 靠近 (相互 之 间 的 距离 在 Eps 之 
内 ) 的 核心 点 属于 同一 个 徐 。 同 样 ， 任 何 与 核心 点 足够 靠近 的 边界 点 也 放 到 与 核心 点 相同 的 
簇 中 。 如 果 一 个 边界 点 靠近 不 同 簇 的 核心 点 ， 则 需要 评判 是 否 丢 弃 噪 声 点 。 


算法 2.8 DBSCAN 算法 


将 所 有 点 标记 为 核心 点 、 边 界 点 或 噪声 点 

删除 噪声 点 

为 距离 在 Eps 之 内 的 所 有 核心 点 之 间 赋予 一 条 边 

每 组 连通 的 核心 点 形成 一 个 能 

将 每 个 边界 点 指派 给 一 个 与 之 关联 的 核心 点 的 簇 

DBSCAN 使 用 簇 基于 密度 的 定义 ， 因 此 相对 抗 噪声 ， 并 且 能 够 处 理 任意 形状 和 大 小 的 
徐 。 因 此 ，DBSCAN 能 够 发 现 均值 不 能 发 现 的 徐 。 但 是 ，DBSCAN 处 理 簇 密度 变化 太 
大 或 高 维 数据 时 ， 会 遇 到 密度 定义 更 加 困难 的 问题 。 

Weka 提供 DBScan 算法 ， 它 使 用 欧 氏 距离 度量 以 确定 哪些 实例 属于 哪个 艇 。 与 均值 
算法 不 同 ，DBScan 算法 可 以 自动 确定 簇 的 数目 ， 发 现任 意 形状 的 徐 ， 并 纳入 离 群 概念 。 
簇 定义 为 至 少 包含 最 小 数量 的 点 ， 簇 内 每 对 点 之 间 的 距离 必须 落 在 用 户 指定 的 距离 (a@) 之 
内 ， 或 者 由 簇 中 的 一 系列 的 点 连接 ， 位 于 链 中 的 每 个 点 和 下 一 个 点 的 距离 必须 落 在 ge 内 。 
a 值 越 小 ， 产 生 的 簇 越 密集 ， 因 为 实例 之 间 必 须 更 接近 才能 同属 于 一 个 徐 。 根 据 设 置 的 
值 和 最 小 的 徐 大 小 ， 可 能 有 某 些 实例 不 属于 任何 徐 ， 可 将 这 些 实例 视 为 离 群 值 。 


2.4.3 手把手 教 你 

1. 使 用 SimpleKMeans 算法 

大 均值 算法 是 一 种 常用 的 聚 类 分 析 算 法 。 该 算法 接受 输入 值 然后 将 于 个 数据 对 象 划 
分 为 个 簇 ， 使 得 获得 的 簇 满足 如 下 条 件 : 同一 簇 中 的 对 象 相似 度 较 高 ， 而 不 同 簇 中 的 对 
象 相似 度 较 小 。 

SimpleKMeans 算法 使 用 均值 算法 。 簇 的 数量 是 由 一 个 参数 指定 ， 用 户 可 以 选择 欧 氏 
距离 或 曼哈顿 距离 度量 。 如 果 使 用 后 者 ， 该 算法 实际 上 是 使 用 k-medians 替代 k-means， 并 
且 中 心 也 是 基于 中 位 数 而 不 是 均值 ， 以 尽量 使 簇 内 的 距离 函数 最 小 。 

下 面 对 天 气 数据 集 使 用 SimpleKMeans 算法 。 首 先 在 预 处 理 面板 加 载 weather.arff 文 
件 ， 然 后 切换 至 Cluster 面板 ， 选 择 SimpleKMeans 算法 ， 保 持 默 认 参 数 ， 即 2 个 簇 以 及 欧 
氏 距 离 。 单 击 Start 按钮 运行 聚 类 算法 ， 结 果 如 下 : 
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Run information 一 一 


Scheme : weka.clusterers.SimpleKMeans -N 2 -A "weka.core.EuclideanDistance 
-了 first-last" -I 500 -S 10 
Relation: weather 
Instances: 14 
Attributes: 5 
outlook 
temperature 
humidity 
windy 
play 
Test mode: evaluate on training data 


Clustering model (full training set) 一 = 


kMeans 


Number of iterations: 3 
Within cluster sum of squared errors: 16.237456311387238 
Missing values globally replaced with mean/mode 


Cluster centroids: 


Cluster# 

Attribute Full Data 0 1 

(14) (9) (5) 
outlook sunny sunny overcast 
temperature T3514 75.8889 69.4 
humidity 81.6429 84.1111 4 
windy FALSE FALSE TRUE 
play yes yes yes 


Time taken to build model (full training data) : 0.01 seconds 


Model and evaluation on training set 一 = 


Clustered Instances 


0 
1 


可 以 看 到 ， 聚 类 结果 以 表格 形式 显示 


9 ( 64%) 
5 ( 36%) 


行 对 应 属性 名 ， 列 对 应 簇 中 心 。 在 开始 的 一 


个 额外 艇 显示 了 整个 数据 集 。 每 个 簇拥 有 的 实例 数量 显示 在 所 在 列 的 顶部 括号 内 。 每 一 个 
表 项 如 果 是 数值 型 属性 ， 则 显示 平均 值 ， 如 果 是 标 称 型 属性 ， 则 显示 簇 所 在 列 对 应 的 属性 


标签 。 月 


目 户 可 以 选择 显示 数值 型 属性 标准 差 和 标 称 型 属性 值 的 频率 计数 ， 只 要 在 通用 对 象 


编辑 器 中 将 displayStdDevs 参数 设置 为 true 即 可 。 输 出 底部 显示 应 用 所 学 聚 类 模型 的 结 
果 。 本 例 中 ， 显 示 了 分 配给 每 个 艇 的 训练 实例 数目 及 百分比 ， 与 表格 中 每 一 列 项 部 括号 内 


数字 相同 。 聚 类 模式 除了 使 用 训练 集 外 ， 还 可 以 使 用 提供 独立 测试 集 (Supplied test set)、 分 
割 百分比 (Percentage split) 或 者 类 别 作 为 簇 的 评估 准则 (Classes to clusters evaluation) 的 训练 
数据 ， 对 应 每 种 聚 类 模式 的 显示 输出 会 有 所 不 同 。 


下 面 使 用 EM 算法 对 相同 数据 集 进 行 聚 类 分 析 。 
2. 使 用 EM 算法 


EM 算法 也 是 常用 的 聚 类 算法 。 
在 Cluster 面板 中 单 击 Choose 按钮 选择 EM 聚 类 器 ， 单 击 Choose 按钮 右边 的 输入 框 ， 


将 numClusters 设置 为 2， 即 复数 为 2， 其 他 参数 保持 默认 值 。 单 击 Start 按钮 启动 聚 类 训 


得 到 结果 如 下 : 


=—= Run information 一 一 
Scheme : weka.clusterers.EM -I 100 -N 2 -M 1.0E-6 -S 100 
Relation: weather 
Instances: 14 
Attributes: 5 
outlook 
temperature 
humidity 
windy 
Ignored: 
play 
Test mode: evaluate on training data 


=== Clustering model (full training set) —= 
EM 


Number of clusters: 2 


Cluster 
Attribute 0 1 
(0.28) (0.72) 


outlook 

sunny 2.9551 4.0449 
overcast 2.9876 3.0124 
rainy 1.0009 5.9991 
[total] 6.9437 13.0563 
temperature 

mean 82.2771 70.1574 
std. dev. 1.9212 3.6061 
humidity 

mean 83.9571 ,80.7353 
std. dev. 5.5038 11.043 
windy 

TRUE 1.9553 6.0447 
FALSE 3.9884 6.0116 
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[total] 5.9437 12.0563 
Time taken to build model (full training data) : 0.01 seconds 


一 = Model and evaluation on training set 一 一 
Clustered Instances 


0 4 ( 29%) 
1 10 ( 71%) 


Log likelihood: -8.36599 


可 以 看 到 ， 不 同 于 SimpleKMeans 算法 的 输出 ， 在 表 头 的 每 个 簇 的 下 方 并 没有 显示 实 
例 数量 ， 只 是 在 表 头 括号 内 显示 其 先 验 概率 。 表 中 单元 格 显示 数值 属性 正 态 分 布 的 参数 ， 
或 标 称 属性 值 的 频率 计数 ， 这 里 ， 小 数 数值 揭示 了 由 EM 算法 产生 簇 的 “ 软 ” 特 性 ， 任 何 
实例 都 可 以 在 若干 个 簇 之 间 进 行 分 割 。 在 输出 的 最 后 ， 显 示 了 模型 的 对 数 似 然 值 ， 这 里 还 
是 相对 于 训练 数据 。 输 出 还 显示 了 分 配给 每 个 簇 的 实例 数量 ， 这 是 将 经 过 学 习 后 的 模型 作 
为 分 类 器 应 用 到 数据 后 所 得 的 结果 。 

3. 使 用 DBSCAN 和 OPTICS 算法 


DBSCAN 和 OPTICS 都 是 聚 类 算法 。 

DBSCAN 使 用 欧 氏 距离 度量 ， 以 确定 哪些 实例 属于 同一 个 徐 。 但 是 ， 不 同 于 k- 均 值 算 
法 ，DBSCAN 可 以 自动 确定 簇 的 数量 ， 发 现任 意 形状 的 簇 并 引入 离 群 值 的 概念 。 将 簇 定义 
为 至 少 包 含有 最 小 数目 点 的 集合 ， 其 中 每 个 点 对 彼此 之 间 的 距离 小 于 用 户 指定 的 最 小 距离 
(s，Weka 界面 为 epsilon)， 或 者 由 簇 内 的 一 系列 的 点 连接 为 链 ， 链 中 的 每 个 点 到 下 一 个 点 
的 距离 小 于 s。s 的 值 越 小 ， 产 生 的 簇 越 密集 ， 这 是 因为 实例 必须 靠 得 更 紧密 ， 彼 此 才能 同 
属于 一 个 艇 。 根 据 设 定 的 s 值 和 簇 大 小 的 最 小 值 (Weka 界面 为 minPoints 参数 )， 有 可 能 存在 
某 些 不 属于 任何 簇 的 实例 ， 这 些 实例 称 为 离 群 值 。 

OPTICS 算法 是 DBSCAN 算法 在 层次 聚 类 方面 的 扩展 。OPTICS 规定 了 实例 的 顺序 ， 
这 些 实例 进行 二 维 可 视 化 ， 揭 示 了 簇 的 层次 结构 。 排 序 过 程 根据 距离 度量 ， 以 及 在 列表 中 
彼此 相 邻 位 置 ， 按 顺序 排列 彼此 最 接近 的 实例 。 此 外 ， 它 会 标记 每 个 相 邻 实 例 对 的 “距离 
可 达 性 ”， 这 是 允许 一 个 相 邻 实例 对 属于 同一 簇 的 最 小 a 值 。 当 根据 距离 可 达 性 顺序 绘 出 
散 点 图 后 ， 能 明显 看 出 簇 的 分 界 。 由 于 簇 内 实例 距离 最 近邻 居 的 可 达 性 很 低 ， 簇 可 视 化 为 
山谷 形 状 。 山 众 越 深 ， 表示 簇 越 密集 。 

下 面 演示 如 何 使 用 DBSCAN 和 OPTICS 算法 。 

首先 ， 在 预 处 理 面板 中 加 载 意 尾 花 数据 集 ， 然 后 切换 至 Cluster 面板 ， 单 击 Choose 按 
钮 选择 DBSCAN 算法 。 注 意 ， 如 果 没 有 找到 DBSCAN 算法 ， 那 一 定 是 还 没有 添加 该 学 习 
方案 ， 需 要 使 用 包 管理 器 进行 添加 。 由 于 这 两 个 算法 的 关系 密切 ，Weka 将 这 两 个 算法 合 
为 一 个 包 ， 包 名 为 optics_dbScan， 最 新 版 本 为 1.0.3。 

单 击 Choose 按钮 右边 的 文本 输入 框 ， 在 弹出 的 通用 对 象 编辑 器 中 将 epsilon 参数 设置 
为 0.2，minPoints 参数 设置 为 5。 然 后 ， 单 击 Ignore atrributes 按钮 ， 在 弹出 的 Select items 
窗口 中 选择 class 属性 ， 忽 略 该 分 类 属性 ， 单 击 Select 按钮 关闭 该 窗口 。 单 击 Start 按钮 启 


动 聚 类 算法 ， 在 聚 类 器 输出 中 可 以 看 到 ，DBSCAN 只 发 现 2 个 徐 ， 一 个 徐 有 49 个 实例 ， 
另 一 个 禾 有 98 个 实例 ， 还 有 3 个 实例 未 能 聚 类 ， 如 图 2.78 所 示 。 

Time taken to build model (full training data) ; 0.09 seconds 

=== Model and evaluation on training set === 

Clustered Instances 


0 49 ( 334) 
1 98 ( 67%) 


Unclustered instances : 3 
2.78 DBSCAN 输出 结果 
用 鼠标 右 击 结果 列表 中 新 添加 的 条 目 ， 在 弹出 菜单 中 选择 Visualize cluster 
assignments( 艇 分 配 可 视 化) 菜单 项 ，Weka 将 弹出 可 视 化 结果 窗口 ， 该 可 视 化 界面 的 操作 可 
以 参见 2.7 节 的 说 明 。 图 2.79 所 示 的 是 横 轴 为 sepalwidth， 纵 轴 为 petalwidth 的 可 视 化 
结果 。 


ET = 
? i rT gm) -~ 


图 2.79 聚 类 器 结果 可 视 化 


从 图 中 可 以 看 到 ，DBSCAN 发 现 了 2 个 徐 ， 一 个 显示 为 蓝 色 的 簇 是 Iris setosas， 另 一 
个 簇 显 示 为 红色 ， 由 Iris viginicas 和 versicolors 组 成 ， DBSCAN 并 没有 明确 区 别 这 两 者 。 
三 个 判定 为 离 群 值 的 实例 在 散 点 图 中 显示 为 字符 M， 左 下 方 的 一 个 M 实际 应 该 为 Iris 
setosas， 右 上 方 的 两 个 M 实际 应 该 为 versicolors， 但 在 以 花 划 宽度 为 横 轴 ， 花 办 宽度 为 纵 
轴 的 散 点 图 中 ， 这 些 离 群 值 的 确 与 两 个 簇 的 距离 都 有 些 远 。 

现在 ， 将 minPoints 参数 由 5 修改 为 2， 保持 其 他 参数 不 变 ， 重 新 运行 。 会 惊奇 地 发 现 
DBSCAN 已 经 发 现 了 3 个 徐 ， 散 点 图 右上 方 的 两 个 离 群 值 单独 形成 了 第 三 个 簇 ， 因 为 它们 
相互 间 的 距离 小 于 设 定 的 s 值 ， 并 且 也 满足 艇 大 小 的 最 小 值 2 的 要 求 ， 如 图 2.80 所 示 。 

现在 ， 对 萝 尾 花 数 据 集 使 用 OPTICS 算法 。 选 择 OPTICS 聚 类 器 ， 打 开通 用 对 象 编辑 
器 ， 将 epsilon 参数 设置 为 0.2，minPoints 参数 设置 为 5。 单 击 Start 按钮 运行 聚 类 器 ， 
Weka 会 自动 弹出 名 称 为 OPTICS Visualizer 的 窗口 ， 窗 口中 部 分 为 两 个 标签 页 一 一 Table 和 
Graph， 前 者 以 表格 形式 显示 聚 类 结果 ， 后 者 以 图 形 形 式 显 示 聚 类 结果 ， 如 图 2.81 所 示 。 

从 图 中 可 以 看 到 ， 有 三 个 很 高 的 峰值 ， 中 间 夹 着 两 个 山谷 ， 对 应 OPTICS 找到 的 两 个 
徐 。 通 过 设置 距离 可 达 性 的 阐 值 ， 获 得 不 同 的 聚 类 ， 也 就 是 说 ， 在 图 中 的 某 个 给 定 的 可 达 
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性 值 的 位 置 处 绘制 一 条 水 平 线 ， 该 水 平 线 与 峰值 相交 ， 两 侧 相交 点 形成 山谷 ， 这 就 是 自己 
的 艇 。 
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图 2.80 重新 运行 的 结果 


图 2.81 OPTICS 可 视 化 输出 


2.5 关 联 


关联 规则 数据 挖掘 是 数据 挖掘 领域 的 热点 之 一 。 关 联 规则 反映 一 个 对 象 与 其 他 对 象 之 
间 的 相互 依赖 性 ， 如 果 多 个 对 象 之 间 存 在 一 定 的 关联 关系 ， 那 么 ， 其 中 一 个 对 象 就 能 够 通 
过 其 他 对 象 进行 预测 。 

关联 规则 的 典型 问题 是 分 析 超 市 中 的 购物 篮 数 据 ， 通 过 分 析 顾 客 放 入 购物 篮 中 的 不 同 
商品 ， 发 现 商品 之 间 的 关系 ， 从 而 分 析 顾客 的 购买 习惯 。 另 一 些 典 型 应 用 是 ， 从 海量 商业 
交易 记录 中 发 现 感 兴趣 的 数据 关联 ， 以 帮助 商家 决策 。 例 如 ， 商 品 分 类 设计 、 降 价 经 销 分 
析 、 货 架 摆 放 策 略 等 。 

众所周知 的 沃尔玛 超市 故事 说 明了 发 现 关 联 规则 的 威力 ， 沃 尔 玛 是 将 数据 挖掘 结果 应 
用 到 商业 运作 并 取得 很 大 成 功 的 最 大 公司 之 一 。 沃 尔 玛 曾经 详细 分 析 了 数据 仓库 中 一 年 多 
的 原始 交易 数据 ， 发 现 与 尿布 一 起 被 购买 最 多 的 商品 竟然 是 啤酒 。 借 助 于 关联 规则 ， 发 现 
隐藏 在 背后 的 事实 是 : 30% 一 40% 的 年 轻 父亲 在 购买 尿布 时 会 顺便 买 一 点 爱 喝 的 啤酒 。 沃 


尔 玛 及 时 调整 了 货架 摆 放 位 置 ， 把 尿布 和 啤酒 放 在 一 起 销售 ， 从 而 大 大 增加 了 销量 。 

关联 规则 可 以 采用 与 分 类 规则 相同 的 方式 产生 。 由 于 得 到 的 关联 规则 数量 庞大 ， 通 常 
需要 根据 覆盖 率 (Coverage) 和 准确 率 (Accuracy) 进 行 修 剪 。 覆 盖 率 也 称 为 支持 度 (Support)， 
是 应 用 规则 后 预测 正确 的 实例 数量 。 准 确 率 也 称 为 置信 度 (Confidence)， 表 示 为 支持 度数 值 
占 应 用 规则 后 的 实例 数量 的 比例 。 

由 于 仅 对 高 覆盖 量 的 关联 规则 感 兴趣 ， 只 寻找 能 够 达到 预定 的 最 小 覆盖 量 的 属性 值 对 
组 合 ， 这 些 组 合 称 为 项 集 (Itemseb， 其 中 的 任 一 个 属性 值 对 称 为 一 个 项 (Item)。 和 套用 购物 篮 
分 析 案 例 ， 项 就 是 购物 篮 中 的 商品 ， 需 要 寻找 的 是 购物 篮 中 商品 之 间 的 关联 。 


2.5.1 关联 面板 操作 
Weka 专门 使 用 一 个 关联 (Associate) 面 板 来 处 理 聚 类 问题 ， 如 图 2.82 所 示 。 
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图 2.82 关联 面板 


关联 面板 包含 了 学 习 关联 规则 的 方案 。 从 面板 布局 来 看 ， 关 联 规则 学 习 器 可 以 采用 与 
诸如 聚 类 器 、 过 滤器 和 分 类 器 等 其 他 面板 相同 的 方式 来 进行 选择 和 配置 。 

为 关联 规则 学 习 器 设置 好 合适 的 参数 后 ， 单 击 Start 按钮 可 启动 学 习 器 ， 学 习 完 成 后 
可 右 击 结果 列表 中 的 条 目 ， 以 查看 或 保存 结果 。 


2.5.2 关联 算法 介绍 


关联 分 析 主 要 用 于 发 现 隐藏 在 大 型 数据 集中 的 有 意义 的 联系 ， 联 系 可 以 采用 关联 规则 
或 频繁 项 集 的 形式 表示 。 关 联 分 析 可 用 于 购物 篮 数据 分 析 ， 还 可 用 于 医疗 诊断 、 网 页 挖掘 
和 科学 数据 分 析 等 领域 。 

关联 分 析 有 很 多 术语 ， 以 下 简单 介绍 这 些 术语 。 

(1) 购物 篮 事务 : 顾客 购物 数据 的 例子 ， 如 表 2.9 所 示 。 其 中 ，TID 是 事务 的 唯一 标 
识 ， 项 集 是 给 定 顾客 购买 商品 的 集合 ， 二 者 合成 一 个 事务 。 

(2) 三 元 表示 : 采用 表 2.10 所 示 的 二 元 形式 来 表示 购物 篮 数据 ， 每 行 对 应 一 个 事务 ， 
每 列 对 应 一 个 项 。 项 用 二 元 变量 表示 ， 这 种 表示 忽略 所 购 商 品 的 数量 和 价格 。 
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表 2.9 购物 篮 事 务 示例 


TID 项 集 
1 ， 和 牛奶 } 

有 面包 ， 尿 布 ， 啤 酒 ， 鸡 蛋 } 

3 F 奶 ， 尿 布 ， 啤 酒 ， 可 乐 } 

4 ， 和 牛奶， 尿布， 啤酒 } 

5 ， 和 牛奶， 尿布 ， 可 乐 } 


(3) 项 集 : 设 了 = {i,,…, 记 } 为 购物 篮 数 据 中 全 部 项 的 集合 ，7T = ,6,…,ty} 是 所 有 事 
务 的 集合 。 每 个 事务 包含 的 项 集 都 是 7 的 子 集 。 包 含 0 个 或 多 个 项 的 集合 称 为 项 集 。 特 
别 地 ， 包 含 大 个 项 的 项 集 称 为 k- 项 集 ， 不 包括 任何 项 的 项 集 为 空 集 。 

(4) 支持 度 计 数 : 支持 度 计数 就 是 包括 特定 项 集 的 事务 个 数 。 如 果 项 集 Ts 是 事务 的 
子 集 ， 就 称 事务 包括 项 集 Ts。 

(5) 关联 规则 (Association Rule): 关联 规则 是 形 如 X 一 了 的 蕴涵 表达 式 ， 其 中 , 对 和 了 
是 不 相交 的 项 集 ， 即 XAY=@g。 

(6) 支持 度 (Support): 支持 度 确定 规则 可 以 用 于 给 定数 据 集 的 频繁 程度 ， 项 集 8 的 支 
持 度 sup(S) =( 包 含 项 集 $ 的 事务 数量 / D 中 总 的 事务 数量 的 百分比 )x100%。 支 持 度 是 一 种 
重要 度量 ， 低 支持 度 的 规则 可 能 只 是 偶然 出 现 ， 因 此 支持 度 可 用 于 删除 无 意义 的 规则 。 

(7) 置信 度 (Confidence): 置信 度 确 定 了 在 包括 了 的 事务 中 出 现 的 频繁 程度 。 置 信 度 度 
量规 则 用 于 推理 的 可 靠 性 ， 置 信 度 越 高 ， 推 理 越 可 靠 。 

(8) 频繁 项 集 (Frequent Itemseb: 满足 最 小 支持 度 阔 值 的 所 有 项 集 ， 即 若 项 集 8 的 支持 
度 三 给 定 最 小 支持 度 ， 称 5 为 频繁 项 集 。 

(9) 强 规则 (Strong Rule): 从 发 现 的 频繁 项 集中 提取 的 所 有 高 置信 度 的 规则 。 

1. Apriori 算法 

Apriori 算法 是 第 一 个 关联 规则 挖掘 算法 ， 它 开创 性 地 使 用 基于 支持 度 的 剪 枝 技术 ， 系 
统 地 控制 了 候选 项 集 的 指数 增长 。 

算法 2.9 给 出 Apriori 算法 产生 频繁 项 集 部 分 的 伪 代 码 。 设 Ci 为 候选 k- 项 集 的 集合 ， 
为 频繁 k- 项 集 的 集合 。 

算法 初始 通过 单 遍 扫描 数据 集 ， 确 定 每 个 项 的 支持 度 。 一 旦 完成 该 步 ， 就 得 到 所 有 频 
繁 1- 项 集 的 集合 F。 然 后 ， 算 法 使 用 上 一 次 迭代 发 现 的 频繁 (k-1)- 项 集 ， 产 生 新 的 候选 k- 


项 集 。 使 用 apriori-gen 函数 产生 候选 。 
为 了 对 候选 项 的 支持 度 计 数 ， 算 法 再 次 扫描 一 遍 数 据 集 。 使 用 子 集 函 数 确 定 包 含 在 每 
一 个 事务 1 中 的 Ct 中 的 所 有 候选 k- 项 集 。 
计算 候选 项 的 支持 度 计数 之 后 ， 算 法 将 删除 支持 度 计数 小 于 最 小 支持 度 闵 值 (minsup) 
的 所 有 候选 项 集 。 
当 没 有 新 的 频繁 项 集 产生 ， 即 = 时 ， 算 法 结束 。 
算法 2.9 Apriori 算法 的 频繁 项 集 产生 
k=1 
五 ={ilieITAo( 们 宇和 Nxminsup)}  // 发 现 所 有 的 频繁 1- 项 集 
repeat 
k=k+1 
Ce=apriori-gen (Fi 1) // 产生 候选 项 集 
for 每 个 事务 :eT do 
C, = subset(Ci,t)  // 识别 属于 七 的 所 有 候选 
for 每 个 候选 项 集 c e C，do 
a(c) = a(c)+1  // 支持 度 计数 增 1 
end for 
end for 
R={clceC,Ao(c)> Nxminsup} // 提取 频繁 k- 项 集 
until 五 = 人 
Result = JE。 


其 中 ，apriori-gen 函数 通过 候选 项 集 的 产生 和 前 枝 两 个 操作 产生 候选 项 集 。 候 选项 集 
的 产生 由 前 一 次 迭代 发 现 的 频繁 (k-1)- 项 集 产生 新 的 候选 k- 项 集 ， 选 项 集 的 剪 枝 采 用 基于 支 
持 度 的 剪 枝 策略 ， 删 除 一 些 候选 k- 项 集 。 

Weka 提供 Apriori 算法 的 实现 类 。 算 法 和 迭代 减少 最 小 支持 ， 直 到 找到 满足 给 定 最 小 置 
信 度 的 所 需 数 量 的 规则 。 

2. FP-Growth 算法 

FP 增长 算法 采用 完全 不 同 的 方法 来 发 现 频繁 项 集 。 算 法 不 同 于 Apriori 算法 的 “产生 - 
测试 ” 范 型 ， 而 是 使 用 一 种 称 为 FP 树 的 紧凑 数据 结构 组 织 数据 ， 并 直接 从 该 结构 中 提取 
频繁 项 集 。 

FP 树 是 一 种 输入 数据 的 压缩 表示 ， 通 过 逐个 读 取 事务 ， 并 将 每 个 事务 映射 到 FP 树 中 
的 一 条 路 径 来 构造 。 由 于 不 同事 务 可 能 会 有 若干 个 相同 的 项 ， 因 此 它们 的 路 径 可 能 部 分 重 
全 。 路 径 相互 重合 越 多 ， 使 用 FP 树 结构 获得 的 压缩 效果 越 好 。 如 果 FP 树 足够 小 ， 能 够 存 
放 在 内 存 中 ， 就 可 以 直接 从 内 存 结构 中 提取 频繁 项 集 ， 而 不 必 重 复 扫描 存放 在 硬盘 上 的 数 
据 。 对 于 某 些 事务 数据 集 ，FP 增长 算法 比 标准 Apriori 算法 要 快 几 个 数量 级 。 

FP 增长 算法 分 两 个 过 程 ， 首 先 根据 原始 数据 构建 FP 树 ， 然 后 在 FP 树 上 挖掘 频繁 模 
式 。 下 面 分 别 介绍 FP 增长 算法 。 


算法 2.10 FP 树 构建 算法 


设 数据 集 为 D， 最 小 支持 度 闵 值 为 mninsup 
扫描 事务 数据 集 D， 得 到 频繁 1- 项 集 F 和 支持 度 。 对 下 按 支持 度 降 序 排序 ， 得 到 频繁 项 表 工 。 
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创建 一 个 FP- 树 的 根 节点 ， 标 记 为 “nul1”。 

再 次 扫描 数据 集 ， 对 D 中 的 每 条 事务 Trans 执行 如 下 操作 : 

提取 Trans 中 的 频繁 项 并 按 工 中 的 次 序 排序 。 令 排序 后 频繁 项 表 为 [p | P]， 这 里 p 是 指 第 一 个 元 素 ， 而 
P 是 剩 下 的 元 素 组 成 的 列表 。 调 用 insert_tree ( [P | P] ，T) 。 该 过 程 执 行 如 下 ; 如 果 T 有 子 节点 N 使 
得 N.item name =p.item name， 则 N 的 计数 增 1;， 否则 生成 一 个 新 节点 N， 将 计数 置 为 1， 链 接 到 它 的 
父 节点 T， 并 且 通 过 节点 链 结 构 将 其 链接 到 具有 相同 item_name 的 节点 。 如 果 P 非 空 ， 递 归 调 用 


insert tree (P，N) 。 


FP- 树 构建 算法 需要 对 事务 数据 库 扫 描 两 次 ， 最 后 将 数据 集 压 缩 成 一 棵 树 ， 树 包含 了 


频繁 模式 挖掘 的 全 部 信息 。 


题 。 


算法 2.11 FP 增长 算法 
FP-growth (Tree, oa) 
工 初 值 为 空 
if Tree 包含 单条 路 径 P then 
for 路 径 P 中 节点 的 每 个 组 合 ( 记 作 B) do 
产生 模式 8 a ， 其 支持 度 设 为 B 中 节点 的 最 小 支持 度 
end for 
else // 包含 多 个 路 径 
for 在 Tree 的 头 表 中 的 每 个 频繁 项 oi do 
产生 模式 5 = w ww ， 其 支持 度 support=oi。support 
构建 B 的 条 件 模式 基 ， 然 后 构建 B 的 条 件 FP- 树 Trees 
if Treep*® then 
调用 FP-growth (Treep，B) 
end if 
end for 
end id 


FP 增长 算法 将 发 现 长 频繁 模式 的 问题 转化 为 递归 地 寻找 短 模式 ， 然 后 连接 后 级 的 问 
它 将 最 不 频繁 的 项 作为 后 级 ， 极 易 选 取 。 该 方法 较 大 地 降低 了 搜索 开销 。 
Weka 提供 名 称 为 FPGrowth 的 FP-Growth 算法 的 实现 类 ， 算 法 寻找 大 的 项 集 而 不 产生 


候选 集 ， 选 代 降低 最 小 的 支持 度 ， 直 到 找到 所 需 数量 的 满足 给 定 最 小 度量 的 规则 。 
2.5.3 手把手 教 你 用 


1. Apriori 关联 规则 挖掘 
为 了 了 解 如 何 应 用 Apriori 算法 ， 加 载 weather. nominal.arff 文件 挖掘 规则 。 注 意 到 


Apriori 算法 希望 的 是 完全 的 标 称 型 数据 ， 如 果 有 数值 型 属性 ， 必 须 先进 行 离散 化 。 在 预 处 
理 面 板 中 加 载 数 据 后 ， 切 换 至 Associate 面板 ， 如 果 当 前 的 挖掘 算法 不 是 Apriori， 则 选择 
它 ， 使 用 默认 选项 。 然 后 单 击 Start 按钮 ， 启 动 Apriori 运行 ， 运 行 结果 如 图 2.83 所 示 。 


Apriori 算法 输出 的 10 条 规则 ， 按 照 每 一 条 规则 后 括号 内 的 置信 (Confidence) 度 量 进 行 


排序 。 为 便于 研究 ， 将 10 条 规则 列 示 如 下 : 


1. outlook=overcast 4 一 > play=yes 4 <conf: (1)> lift: (1.56) lev: (0.1) [1] 
conv: (1.43) 

2. temperature=cool 4 一 > humidity=normal 4 <conf: (1)> 1ift: (2) lev: (0.14) 
[2] conv: (2) 

3. humidity=normal windy=FALSE 4 一 > play=yes 4 <conf:(1)> Lift:(1.56) 


lev: (0.1) [1] conv: (1.43) 

4. outlook=sunny play=no 3 一 > humidity=high 3 <conf:(1)> lift:(2) 

lev: (0.11) [1] conv: (1.5) 

5. outlook=sunny humidity=high 3 一 > play=no 3 <conf:(1)> lift:(2.8) 
lev: (0.14) [1] conv: (1.93) 

6. outlook=rainy play=yes 3 一 > windy=FALSE 3 <conf:(1)> lift:(1.75) 
lev: (0.09) [1] conv: (1.29) 

7. outlook=rainy windy=FALSE 3 ==> play=yes 3 «eonEs (1}> 11ft: (L156) 
lev: (0.08) [1] conv: (1.07) 

8. temperature=cool play=yes 3 一 > humidity=normal 3 <conf:(1)> lift: (2) 
lev: (0.11) [1] conv: (1.5) 

9. outlook=sunny temperature=hot 2 一 > humidity=high 2 <conf:(1)> lift:(2) 
lev: (0.07) [1] conv: (1) 

10. temperature=hot play=no 2 ==> outlook=sunny 2 <conf:(1)> lift: (2.8) 
lev: (0.09) [1] conv: (1.29) 


规则 采用 “前 件 num.1 一 > 结论 num.2” 的 形式 表示 ， 前 件 后 面 的 数字 表示 有 多 少 个 
实例 满足 前 件 ， 结 论 后 的 数字 表示 有 多 少 个 实例 满足 整个 规则 ， 这 就 是 规则 的 “支持 
度 ”。 因 为 在 所 有 的 10 个 规则 中 ， 这 两 个 数 相等 ， 所 以 每 个 规则 的 置信 度 都 正好 是 1。 
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图 2.83 ”Apriori 算法 运行 结果 


在 实践 中 ， 要 找到 最 小 支持 度 和 置信 度 值 以 得 到 满意 的 结果 ， 可 能 非常 繁琐 。 因 此 ， 
Weka 的 Apriori 算法 需要 多 次 运行 基本 算法 。 它 始终 使 用 用 户 指定 的 同样 的 最 小 置信 度 
值 ， 该 值 由 minMetric 参数 设 定 。 支 持 度 可 以 表示 为 0 一 1 之 间 的 一 个 比值 ， 是 满足 整个 规 
则 的 实例 数 与 实例 总 数 (在 天 气 数据 中 其 值 为 14) 的 比例 。 最 低 支持 度 始 于 某 一 个 特定 值 (由 
upperBoundMinSupport 指定 ， 默 认 值 为 1.0)。 在 每 一 次 迭代 中 ， 支 持 度 减少 一 个 固定 的 量 
(由 delta 指定 ， 默 认 值 为 0.05， 即 5% 的 实例 )， 直 到 已 经 生成 一 定数 量 的 规则 (由 
numRules 指定 ， 默 认为 10 条 规则 )， 或 者 支持 度 达 到 一 定 的 minimum 水 平 (由 
lowerBoundMinSupport 指定 ， 默 认 值 为 0.1)， 这 是 因为 ， 如 果 规 则 仅 适 用 于 数据 集中 低 于 
10% 的 实例 ， 则 这 些 规 则 一 般 也 没有 什么 意义 。 上 述 四 个 值 都 可 以 由 用 户 指定 。 

这 听 起 来 很 复杂 ， 因 此 需要 研究 在 天 气 数据 到 底 会 发 生 什么 情况 。 关 联 规则 输出 文本 
区 域 表 明 ， 该 算法 已 经 设法 产生 10 条 规则 。 算 法 的 最 小 置信 度 为 0.9， 这 是 默认 值 ， 在 输 
出 中 已 经 显示 为 Minimum metric <confidence>: 0.9。 输 出 中 还 显示 Number of cycles 
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performed( 执 行 的 次 数 )， 显 示 为 17， 该 值 表 明 : Apriori 算法 实际 运行 17 次 以 产生 这 些 规 
则 。 输 出 中 还 显示 Minimum support( 最 小 支持 度 )， 所 生成 的 输出 值 为 0.15( 对 应 于 0.15x14 
2 实例 )。 

现在 打开 通用 对 象 编辑 器 ， 研 究 如 图 2.84 所 示 的 Apriori 参数 。 


2.84 ”Apriori 参数 


可 以 看 到 ， 最 低 的 支持 度 upperBoundMinSupport 参数 的 初始 值 默 认为 1.0，delta 参数 
值 为 0.05。 由 于 1-17x0.05 = 0.15， 这 就 解释 了 为 什么 经 过 17 次 迭代 ， 最 小 支持 度 值 会 是 
0.15。 需 要 注意 的 是 ， 在 基本 Apriori 算法 第 一 次 运行 之 前 ，upperBoundMinSupport 参数 值 
要 先 减 少 delta。 

关联 工具 输出 文本 区 域 还 显示 ， 尝 试 最 小 支持 度 的 最 后 一 个 值 (本 例 为 0.15) 后 ， 发 现 
了 多 少 个 频繁 项 集 。 为 方便 起 见 ， 列 示 如 下 : 

Generated sets of large itemsets: 

Size of set of large itemsets L(1): 12 

Size of set of large itemsets L(2): 47 


Size of set of large itemsets L(3): 39 
Size of set of large itemsets L(4): 6 


可 以 看 到 ， 在 本 例 中 给 定 一 个 最 小 支持 度 为 2 个 实例 ， 有 12 个 大 小 为 1 的 项 集 ， 47 
个 大 小 为 2 的 项 集 ，39 个 大 小 为 3 的 项 集 ，6 个 大 小 为 4 的 项 集 。 

现在 ， 设 置 outputItemSets 为 True， 再 次 运行 Apriori 算法 ， 会 显示 所 有 这 些 不 同 项 集 
和 支持 的 示例 数 ， 如 图 2.85 所 示 。 

Apriori 算法 还 有 一 些 其 他 参数 。 如 果 将 significanceLevel 设置 为 0 一 1 之 间 的 一 个 值 ， 
关联 规则 根据 所 选择 的 显著 性 水 平 上 的 好 检验 进行 过 滤 。 然 而 ， 这 种 情形 下 施加 显著 性 检 
验 是 有 问题 的 ， 因 为 存在 多 重 比较 问题 : 如 果 对 数 百 个 关联 规则 执行 数 百 次 测试 ， 很 可 能 
仅仅 偶然 才 会 发 现 显 著 的 影响 ， 也 就 是 说 ， 一 个 关联 似乎 有 统计 学 意义 ， 但 实际 上 不 是 。 
此 外 ， 邓 检验 在 样本 量 小 的 情形 下 是 不 准确 的 。 
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2.85 设置 outputltemSets 为 True 后 的 运行 结果 


规则 排序 有 蔡 代 度量 。 除 置信 度 (confidence) 外 ，Apriori 算法 还 支持 lift( 提 升 度 )、 
leverage( 杠 杆 率 )， 以 及 conviction( 确 信 度 )， 这 些 可 以 通过 使 用 metricType 进行 选择 ， 更 
多 信息 可 通过 在 通用 对 象 编辑 器 窗口 中 单 击 More 按钮 获得 。 


2. 挖掘 现实 数据 集 


本 示例 挖掘 美国 国会 议员 投票 信息 ， 该 数据 集 的 详细 情况 可 参见 第 1 章 。 

该 数据 集 的 全 部 属性 都 是 二 元 标 称 型 ， 并 带 有 一 些 现实 数据 集 常 见 的 缺失 值 ， 使 用 
“?” 来 表示 这 些 缺 失 值 。 要 意识 到 ， 数 据 集中 的 “?” 并 不 意味 着 该 属性 的 值 是 未 知 的 ， 
而 是 意味 着 ， 该 值 既 不 是 “yes” 也 不 是 “no”。 通 常 将 本 数据 集 视 为 一 个 分 类 问题 ， 任 务 
是 基于 投票 模式 预测 所 属 党 派 。 然 而 ， 本 示例 另辟蹊径 ， 在 数据 集中 应 用 关联 规则 挖掘 ， 
以 寻求 有 趣 的 关联 。 
现在 ， 在 预 处 理 面板 加 载 vote.arff 数据 集 ， 切 换 至 Associate 面板 ， 选 择 Apriori 算 
保持 默认 选项 不 变 ， 单 击 Start 按钮 ， 运 行 结果 如 下 : 


Apriori 


法 


Minimum support: 0.45 (196 instances) 
Minimum metric <confidence>: 0.9 
Number of cycles performed: 11 


Generated sets of large itemsets: 

Size of set of large itemsets L(1): 20 
Size of set of large itemsets L(2): 17 
Size of set of large itemsets L(3): 6 
Size of set of large itemsets L(4): 1 


Best rules found: 


1. adoption-of-the-budget-resolution=y physician-fee-freeze=n 219 一 > 
Class=democrat 219 <conf: (1)> lift:(1.63) lev: (0.19) [84] conv: (84.58) 
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2. adoption-of-the-budget-resolution=y physician-fee-freeze=n aid-to- 
nicaraguan-contras=y 198 一 > Class=democrat 198 <cont tl)> aaEEs (1.63) 

lev: (0.18) [76] conv: (76.47) 

3. physician-fee-freeze=n aid-to-nicaraguan-contras=y 211 一 > Class=democrat 
210 <conf: (1)> 1ift:(1.62) lev: (0.19) [80] conv: (40.74) 

4. physician-fee-freeze=n education-spending=n 202 一 > Class=democrat 201 
<conf: (1)> lift: (1.62) lev: (0.18) [77] conv: (39.01) 

5 physician-fee-freeze=n 247 一 > Class=democrat 245 <conf: (0.99) > 

lift: (1.62) lev: (0.21) [93] conv: (31.8) 

6. el-salvador-aid=n Class=democrat 200 一 > aid-to-nicaraguan-contras=y 197 
<conf: (0.99) > 1ift: (1.77) lev: (0.2) [85] conv: (22.18) 

7. el-salvador-aid=n 208 ==> aid-to-nicaraguan-contras=y 204 <conf:(0.98)> 
lift:(1.76) lev: (0.2) [88] conv: (18.46) 

8. adoption-of-the-budget-resolution=y aid-to-nicaraguan-contras=y 
Class=democrat 203 ==> physician-fee-freeze=n 198 <conf:(0.98)> lift:(1.72) 
lev: (0.19) [82] conv: (14.62) 

9. el-salvador-aid=n aid-to-nicaraguan-contras=y 204 ==> Class=democrat 197 
<conf: (0.97)> 1ift: (1.57) lev: (0.17) [71] conv: (9.85) 

10. aid-to-nicaraguan-contras=y Class=democrat 218 ==> physician-fee-freeze=n 
210 <conf: (0.96)> 1ift: (1.7) lev: (0.2) [86] conv: (10.47) 


首先 ， 输 出 中 列 出 最 小 支持 度 为 0.45(196 个 实例 )， 最 小 的 置信 度 度 量 为 0.9， 执 行 的 
次 数 为 11。 

然后 ， 研 究 Apriori 算法 发 现 的 10 条 规则 。 

第 一 条 规则 表明 ， 支 持 “ 采 纳 预 算 决议 ”， 并 反对 “冻结 医疗 费 ” 的 是 “民主 党 ”。 

第 二 条 规则 表明 ， 支 持 “ 采 纳 预 算 决 议 ”， 反 对 “冻结 医疗 费 ”， 并 支持 “援助 尼 加 
拉 瓜 反 政府 ”的 是 “民主 党 ”。 

第 三 条 规则 表明 ， 反 对 “冻结 医疗 费 ”， 并 支持 “援助 尼加拉瓜 反 政府 ”的 是 “民主 
觉 ”。 

第 四 条 规则 表明 ， 反 对 “冻结 医疗 费 ”， 反 对 “教育 支出 ”的 是 “民主 党 ”。 

第 五 条 规则 表明 ， 反 对 “教育 支出 ”的 是 “民主 党 ”。 

第 六 条 规则 表明 ， 反 对 “EL- 萨 尔 瓦 多 援助 ”， 并 且 分 类 为 “民主 党 ”的 ， 会 支持 
“援助 尼加拉瓜 反 政府 ”。 

第 七 条 规则 表明 ， 反 对 “EL- 萨 尔 瓦 多 援助 ”， 会 支持 “援助 尼加拉瓜 反 政 府 ”。 

第 八条 规则 表明 ， 支 持 “ 采 纳 预算 决议 ”， 支 持 “援助 尼加拉瓜 反 政 府 ”， 并 且 类 别 
为 “民主 党 ”的 ， 会 反对 “冻结 医疗 费 ”。 

第 九条 规则 表明 ， 反 对 “EL- 萨 尔 瓦 多 援助 ”， 并 支持 “援助 尼加拉瓜 反 政府 ”的 是 
“民主 党 ”。 

第 十 条 规则 表明 ， 支 持 “ 援 助 尼加拉瓜 反 政府 ”， 并 且 类 别 为 “民主 党 ”的 ， 会 反对 
“冻结 医疗 费 ”。 

不 难 推断 出 : “民主 党 ”会 支持 “采纳 预算 决议 ”和 “援助 尼加拉瓜 反 政 府 ”， 
“冻结 医疗 费 ”、“ 教 育 支出 ”和 “了 EL- 萨尔瓦多 援助 ”。 

令 人 感到 意外 的 是 ， 全 部 的 十 条 关联 规则 中 ， 没 有 一 条 涉及 “Class=republican”( 类 别 
为 共和 党 的 )， 这 是 为 什么 呢 ? 


也 许 从 数据 中 能 看 出 些 端 倪 。 切 换 至 预 处 理 面板 ， 单 击 Visualize All 按钮 ，Weka 弹出 
如 图 2.86 所 示 的 可 视 化 窗口 。 


2.86 ”数据 集 可 视 化 所 有 的 结果 


图 中 的 蓝 色 代表 民主 党 ， 红 色 代 表 共 和 党 。 在 前 四 行 的 16 项 属性 中 ， 有 多 项 属性 蓝 
色 占 据 绝 对 的 统治 地 位 ， 基 本 上 全 是 蓝 色 柱 ; 而 红色 占据 统治 地 位 的 只 有 很 少 几 个 属性 ， 
又 因为 覆盖 率 低 而 不 具备 竞争 优势 ， 未 能 入 选 。 在 人 数 上 民主 党 占 优 (267: 168)， 加 上 有 
明确 的 政治 观点 ， 因 此 前 十 条 关联 规则 都 打上 民主 党 的 烙印 。 


3. 市 场 购 物 篮 分 析 


购物 篮 分 析 将 关联 技术 用 于 交易 过 程 ， 特 别 是 分 析 超 市 收银 数据 ， 找 出 那些 以 成 组 的 
形势 同时 出 现 的 商品 。 对 于 大 多 数 零 售 商 来 说 ， 这 是 主要 的 用 于 数据 挖掘 的 销售 信息 来 
源 。 例 如 ， 自 动 分 析 收 银 数据 后 发 现 : 买 啤酒 的 客户 同时 也 买 慕 片 ， 对 超市 管理 人 员 来 
说 ， 这 个 发 现 也 许 非常 有 意义 。 另 一 个 沃尔玛 的 例子 是 ， 一 些 顾 客 通 常 星期 四 在 买 尿 片 的 
同时 还 买 啤 酒 。 这 似乎 令 人 惊讶 ， 但 如 果 和 仔细 一 想 ， 年 轻 父 母 为 了 在 家 度 周末 而 采购 ， 这 
又 非常 容易 理解 。 上 述 信息 可 以 用 于 多 种 目的 ， 规 划 货 架 摆 放 位 置 、 仅 对 会 同时 购买 的 商 

品 中 的 一 种 进行 打折 销售 、 提 供与 单独 销售 的 产品 相 匹配 产品 的 赠 券 ， 等 等 。 了 解 顾客 的 
个 人 购买 历史 记录 人 E 够 创造 出 巨大 的 附加 价值 。 商 家 可 以 从 顾客 的 购买 行为 中 鉴别 特殊 客 
户 ， 不 但 可 以 分 析 其 历史 购买 模式 ， 而 且 还 能 精确 地 针对 潜在 用 户 提供 特殊 的 极 有 可 能 感 
兴趣 的 购买 信息 。 

在 Weka 中 进行 市 场 购物 篮 分 析 ， 每 笔 交易 都 编码 为 一 个 实例 ， 其 中 的 每 个 属性 表示 
店 里 的 一 个 商品 项 ， 每 个 属性 都 只 有 一 个 值 ， 如 果 某 个 特定 交易 不 包含 (也 就 是 说 ， 客 户 没 
有 购买 该 项 商品 )， 就 将 其 编码 为 缺失 值 。 

本 次 实验 的 任务 是 对 超市 收银 台 进 行 关联 数据 挖掘 。Weka 自 带 一 个 超市 购物 篮 分 析 
数据 集 ， 文 件 名 为 supermarket.arff， 其 中 的 数据 是 从 新 西 兰 的 一 个 真实 超市 里 收集 而 得 。 
我 们 需要 在 真实 数据 中 寻找 一 些 有 趣 的 模式 ! 
首先 ， 使 用 Weka 探索 者 界面 的 预 处 理 面板 ， 加 载 data 目录 下 的 supermarket.arff 文 
件 ， 在 Current relation 子 面板 中 ， 可 以 看 到 属性 数量 有 217 个 ， 而 实例 数量 有 4627 条 ， 相 
对 于 前 面 用 于 教学 的 例子 ， 这 个 数据 集 要 大 了 许多 。 请 单 击 预 处 理 面 板 上 部 的 “Edit...” 
按钮 ， 打 开 数 据 集 的 Viewer 窗口 ， 以 查看 数据 文件 ， 确 认 已 经 理解 了 数据 的 结构 。 
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然后 ， 切 换 至 关联 面板 ， 选 择 Apriori 算法 ， 保 持 默认 选项 不 变 ， 单 击 Start 按钮 启动 
Apriori 算法 ， 运 行 结果 如 下 : 


一 = Run information 一 一 


Scheme : weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -Uv 1.0 -M 0.1 
= 

Relation: supermarket 

Instances: 4627 


Attributes: 217 
[list of attributes omitted] 
=—= Associator model (full training set) 一 一 


Apriori 


Minimum support: 0.15 (694 instances) 
Minimum metric <confidence>: 0.9 
Number of cycles performed: 17 


Generated sets of large itemsets: 

Size of set of large itemsets L(1): 44 
Size of set of large itemsets L(2): 380 
Size of set of large itemsets L(3): 910 
Size of set of large itemsets L(4): 633 
Size of set of large itemsets L(5): 105 
Size of set of large itemsets L(6): 1 


Best rules found: 


1. biscuits=t frozen foods=t fruit=t total=high 788 ==> bread and cake=t 723 
<conf: (0.92)> 1ift: (1.27) lev: (0.03) [155] conv: (3.35) 

2. baking needs=t biscuits=t fruit=t total=high 760 ==> bread and cake=t 696 
<conf: (0.92)> 1ift: (1.27) lev: (0.03) [149] conv: (3.28) 

3. baking needs=t frozen foods=t fruit=t total=high 770 ==> bread and cake=t 
705 <conf: (0.92)> 1ift: (1.27) lev: (0.03) [150] conv: (3.27) 

4. biscuits=t fruit=t vegetables=t total=high 815 ==> bread and cake=t 746 
<conf: (0.92)> 1ift: (1.27) lev: (0.03) [159] conv: (3.26) 

5. party snack foods=t fruit=t total=high 854 ==> bread and cake=t 779 

<conf: (0.91)> 1ift: (1.27) lev: (0.04) [164] conv: (3.15) 

6. biscuits=t frozen foods=t vegetables=t total=high 797 一 > bread and cake=t 
725 <conf: (0.91)> 1ift:(1.26) lev: (0.03) [151] conv: (3.06) 

7. baking needs=t biscuits=t vegetables=t total=high 772 一 > bread and cake=t 
701 <conf: (0.91)> 1ift: (1.26) lev: (0.03) [145] conv: (3.01) 

8. biscuits=t fruit=t total=high 954 一 > bread and cake=t 866 <conf: (0.91)> 
lift:(1.26) lev: (0.04) [179] conv: (3) 

9. frozen foods=t fruit=t vegetables=t total=high 834 一 > bread and cake=t 
757 <conf: (0.91)> 1ift: (1.26) lev: (0.03) [156] conv: (3) 

10. frozen foods=t fruit=t total=high 969 一 > bread and cake=t 877 

<conf: (0.91)> 1ift: (1.26) lev: (0.04) [179] conv: (2.92) 


分 析 一 下 得 到 的 十 条 最 佳 关 联 规则 ， 看 看 能 发 现 什 么 。 


第 一 条 规则 : 饼干 + 冷冻 食品 + 水 果 + 高 总 额 一 > 面包 和 和 蛋糕 

第 二 条 规则 : 烘 烤 所 需 + 饼 干 + 水 果 + 高 总 额 一 > 面包 和 和 蛋糕 

第 三 条 规则 : 烘 烤 所 需 + 冷 冻 食品 + 水 果 + 高 总 额 一 > 面包 和 蛋糕 

第 四 条 规则 : 饼干 + 水 果 + 蔬 菜 + 高 总 额 一 > 面包 和 和 蛋糕 

第 五 条 规则 : 聚会 零食 + 水 果 + 高 总 额 一 > 面包 和 和 蛋糕 

第 六 条 规则 : 饼干 + 冷冻 食品 + 蔬菜 + 高 总 额 一 > 面包 和 和 蛋糕 

第 七 条 规则 : 烘 烤 所 需 + 饼 干 + 蔬菜 + 高 总 额 一 > 面包 和 和 蛋糕 

第 八条 规则 : 饼干 + 水 果 + 高 总 额 一 > 面包 和 和 蛋糕 

第 九条 规则 : 冷冻 食品 + 水 果 + 蔬 菜 + 高 总 额 一 > 面包 和 和 蛋糕 

第 十 条 规则 : 冷冻 食品 + 水 果 + 高 总 额 一 > 面包 和 和 蛋糕 

十 条 关联 规则 中 ， 多 项 商品 多 次 出 现 ， 而 且 总 金额 都 很 高 。 这 给 出 了 一 些 显而易见 的 
信息 ， 第 一 ， 购 买 饼干 、 冷 冻 食 品 等 速 食 的 顾客 ， 会 顺便 采购 些 水 果 、 蔬 菜 ， 以 补充 身体 
所 需 的 维生素 ; 第 二 ， 购 买 饼干 、 冷 冻 食 品 以 及 水 果 、 蔬 菜 的 顾客 ， 会 顺便 购买 面包 和 和 蛋 
糕 ， 第 三 ， 购 买 上 述 食 品 的 顾客 ， 一 次 的 采购 量 会 很 大 ， 总 金额 较 高 ， 第 四 ， 总 金额 较 高 
的 交易 ， 一 般 都 会 购买 面包 和 和 蛋糕 ， 等 等 。 

对 于 超市 经 理 来 说 ， 这 些 信息 非常 重要 ， 可 以 根据 挖掘 到 的 知识 重新 安排 货架 ， 重 新 
布局 超市 ， 提 供 快 速 付 款 通道 以 及 安排 送 货 等 附加 服务 ， 以 期 提升 市 场 竞争 力 。 

请 读者 尝试 使 用 Apriori 算法 的 不 同 参数 ， 看 看 挖掘 效果 ， 能 否 得 到 一 些 意外 而 又 在 
情理 之 中 的 结论 。 


2.6 选择 属性 


属性 选择 就 是 通过 搜索 数据 中 的 所 有 可 能 的 属性 组 合 ， 以 找到 预测 效果 最 好 的 属性 子 
集 。 手 工 选择 属性 既 烦 琐 又 容易 出 错 ， 为 了 帮助 用 户 实现 选择 属性 自动 化 ，Weka 专门 提 
供 如 图 2.87 所 示 的 选择 属性 面板 。 要 自动 选择 属性 ， 必 须 设 立 两 个 对 象 一 一 属性 评估 器 
(Attribute Evaluator) 和 搜索 方法 (Search Method)。 前 者 在 窗口 顶部 的 Attribute Evaluator 子 
板 中 设置 ， 后 者 在 Search Method 子 面板 中 设置 。 属 性 评估 器 确定 使 用 什么 方法 为 每 个 属 
性 子 集 分 配 一 个 评估 值 ， 搜 索 方 法 决定 执行 什么 风格 的 搜索 。 


oroeons| Chaoesty | aseter| uaete saleet suitstee |meeatme| 
haribete Emalaater 
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Weka 允许 用 户 分 别 选择 评估 方法 和 搜索 方法 ， 如 果 用 户 选择 的 组 合 不 恰当 ， 就 会 产 
生 一 个 错误 消息 ， 用 户 可 通过 日 志 查 看 错误 消息 。 


2.6.1 选择 属性 面板 操作 


在 Attribute Selection Mode( 属 性 选择 模式 ) 子 面板 中 ， 有 以 下 两 个 选项 。 

(1) Use full training set( 使 用 完整 的 训练 集 )。 使 用 完整 的 训练 数据 集 ， 以 确定 属性 子 集 
的 评估 值 。 

(2) Cross-validation( 交 叉 验证 )。 由 交叉 验证 来 确定 属性 子 集 的 评估 值 。Folds( 折 数 ) 和 
Seed( 种 子 ) 字 段 分 别 设置 交叉 验证 的 折 数 和 打 乱 数据 时 使 用 的 随机 种 子 。 

与 分 类 面板 一 样 ， 选 择 属性 面板 有 一 个 下 拉 列 表 框 ， 用 于 设 定 把 哪个 属性 作为 类 别 属性 。 

单 击 Start 按钮 启动 属性 选择 过 程 ， 当 选择 过 程 结 束 后 ， 会 将 结果 输出 到 结果 区 域 ， 并 
且 会 在 结果 列表 中 添加 一 个 条 目 。 右 击 结果 列表 条 目 ， 弹 出 的 上 下 文 菜单 提供 几 个 选项 ， 
前 三 个 选项 : View in main window( 在 主 窗口 中 查看 )，View in separate window( 在 单独 的 窗 
口中 查看 ) 和 Save result buffer( 保 存 结果 缓冲 区 ) 与 分 类 面板 中 对 应 的 功能 一 致 ， 不 再 重复 说 
明 。 有 可 能 会 有 Visualize reduced data( 减 少数 据 的 可 视 化 ) 选 项 ， 如 果 已 经 使 用 诸如 
PrincipalComponents( 主 成 分 ) 的 属性 转换 器 ， 或 可 能 会 有 Visualize transformed data( 转 换 后 
的 数据 可 视 化 )。 通 过 使 用 Save reduced data...( 保 存 减 少 的 数据 …) 或 Save transformed 
data.…( 保 存 转换 数据 .…) 选 项 ， 可 以 将 减少 或 转换 后 的 数据 保存 到 文件 中 。 

如 果 不 想 在 分 类 面板 中 使 用 AttributeSelectedClassifier 分 类 器 ， 但 要 在 同时 对 训练 
数据 和 测试 数据 进行 减少 或 转换 处 理 ， 最 好 在 命令 行 或 在 SimpleCLI 界面 下 使 用 
AttributeSelection 过 滤器 的 批 处 理 模式 (“-b”)， 这 是 一 种 有 监督 的 属性 过 滤器 。 批 处 理 模 
式 允许 使 用 “-r” 和 “-s” 选 项 指定 额外 的 输入 和 输出 文件 对 ， 而 构建 过 滤器 则 使 用 “-i” 
和 “-o” 选 项 指定 训练 数据 文件 对 。 

例如 : 

java weka.filters.supervised.attribute.AttributeSelection 

-E "weka.attributeSelection.CfsSubsetEval " 

-S "weka.attributeSelection.BestFirst -D 1 -N 5" 

-b 

-i <input1.arff> 

-oO <outputl .arff> 


-r <input2.arff> 
-s <output2.arff> 


注意 ， 以 上 命令 在 Windows 命令 行 下 需要 在 一 行内 写 完 。 


2.6.2 选择 属性 算法 介绍 


属性 选择 面板 可 以 指定 属性 评估 器 和 搜索 方法 。 属 性 选择 通常 搜索 属性 子 集 空 间 ， 评 
估 每 一 个 空间 ， 这 可 以 通过 组 合 属性 子 集 评估 器 和 搜索 方法 得 以 实现 。 另 一 种 快捷 但 准确 
度 不 高 的 方法 是 评估 单个 属性 并 排序 ， 丢 弃 低 于 指定 截止 点 的 属性 ， 这 可 以 通过 组 合 单个 
属性 评估 器 和 属性 排名 方法 得 以 实现 。Weka 界面 支持 这 两 种 方法 ， 人 允许 用 户 选 取 选 择 方 
法 和 搜索 方法 的 组 合 ， 如 果 用 户 选 择 了 一 个 不 恰当 的 组 合 ， 就 会 产生 一 个 错误 消息 。 


1. 属性 子 集 评估 器 


属性 子 集 评估 器 选取 属性 的 一 个 子 集 ， 并 返回 一 个 指导 搜索 的 度量 数值 ， 这 些 评估 器 
可 以 像 其 他 Weka 对 象 一 样 配 置 。 

CfsSubsetEval 评估 器 评估 每 个 属性 的 预测 能 力 及 其 相互 之 间 的 元 余 度 ， 倾 向 于 选择 与 
类 别 属性 相关 度 高 ， 但 相互 之 间 相 关 度 低 的 属性 。 选 项 迭代 添加 与 类 别 属性 相关 度 最 高 芯 
属性 ， 只 要 子 集中 不 包含 与 当前 属性 相关 更 高 的 属性 。 评 估 器 将 缺失 值 视 为 单独 值 ， 也 可 
以 将 缺失 值 计数 与 其 他 值 一 起 按 出 现 频 率 分 布 。 

WrapperSubsetEval 评估 器 是 包装 器 方法 ， 它 使 用 一 个 分 类 器 来 评估 属性 集 ， 它 对 每 一 
个 子 集 采 用 交叉 验证 估计 学 习 方 案 的 准确 性 。 

2. 单个 属性 评估 器 

单个 属性 评估 器 和 Ranker 搜索 方法 一 同 使 用 ，Ranker 产生 一 个 丢弃 若干 属性 后 得 到 
的 给 定数 目的 属性 排名 列表 。 

ReliefFAttributeEval 是 基于 实例 的 评估 器 ， 它 随机 抽取 实例 样本 ， 并 检查 具有 相同 和 
不 同类 别 的 邻近 实例 。 它 可 运行 在 离散 型 类 别 和 连续 型 类 别 的 数据 之 上 ， 参 数 包括 指定 抽 
样 实例 的 数量 ， 要 检查 的 邻近 实例 的 数量 ， 是 否 对 近邻 的 距离 加 权 ， 以 及 控制 权重 如 何 根 
据 距 离 衰减 的 指数 函数 。 

InfoGainAttributeEval 评估 器 通过 测量 类 别 对 应 的 属性 信息 增益 来 评估 属性 ， 它 首先 使 
用 基于 MDL( 最 小 描述 长 度 ) 的 离散 化 方法 (也 可 以 设置 为 二 元 化 处 理 ) 对 数值 属性 进行 离散 
化 。 GainRatioAttributeEval 评估 器 通过 测量 相应 类 别 的 增益 率 来 评估 属性 。 
SymmetricalUncertAttributeEval 评估 器 通过 测量 相应 类 别 对 称 的 不 确定 性 来 评估 属性 。 以 
上 几 个 方法 都 可 将 缺失 值 作为 单独 值 处 理 ， 或 者 将 其 计数 与 其 他 值 一 起 按 频 率 分 布 。 

OneRAttributeEval 评估 器 使 用 简单 的 OneR 分 类 器 采用 的 准确 性 度量 ， 它 可 以 像 
OneR 分 类 器 那样 ， 使 用 训练 数据 进行 评估 ， 也 可 以 应 用 折 数 作为 参数 的 内 部 交叉 验证 。 
它 采 用 OneR 分 类 器 的 简单 离散 化 方法 : 将 最 小 桶 大 小 作为 参数 。 

不 同 于 其 他 单个 属性 的 评估 器 ，PrincipalComponents 评估 器 转换 属性 集 ， 新 属性 都 按 
照 其 本 征 值 进行 排名 。 或 者 ， 通 过 选择 足够 的 占 方差 的 一 定 比例 (默认 为 95%) 的 特征 向 量 
来 选择 子 集 。 最 后 ， 减 少 后 数据 可 以 转换 回 原来 的 空间 。 

3. 搜索 方法 

搜索 方法 遍历 属性 空间 以 搜索 好 的 子 集 ， 通 过 所 选 的 属性 子 集 评估 器 来 衡量 其 质量 。 
每 个 搜索 方法 都 可 以 使 用 Weka 对 象 编辑 器 进行 配置 。 

BestFirst 搜索 方法 执行 带 回 溯 的 贪 禁 和 候 山 法 ， 用 户 可 以 指定 在 系统 回溯 之 前 ， 必 须 连 
续 遇 到 多 少 个 无 法 改善 的 节点 。 它 可 以 从 空 属性 集 开 始 向 前 搜索 ， 也 可 以 从 全 集 开 始 向 后 
搜索 ， 也 可 以 从 中 间 点 (通过 属性 索引 列表 指定 ) 开 始 双 向 搜索 并 考虑 所 有 可 能 的 单个 属性 
的 增删 操作 。 为 提高 效率 ， 可 以 缓存 已 评估 的 子 集 ， 最 大 缓存 的 大 小 为 可 设置 的 参数 。 

GreedyStepwise 搜索 方法 贪 禁 搜索 属性 的 子 集 空间 。 像 BestFirst 搜索 方法 一 样 ， 它 可 
以 从 空 集 开始 向 前 搜索 ， 也 可 以 从 全 集 开始 向 后 搜索 。 但 不 像 BestFirst， 它 不 进行 回溯， 
只 要 添加 或 删除 剩余 的 最 佳 属性 导致 评估 指标 降低 ， 就 立即 终止 。 在 另 一 种 模式 下 ， 它 通 
过 从 空 到 满 ( 或 从 满 到 空 ) 遍 历 空间 ， 并 记录 选择 属性 的 顺序 来 对 属性 排名 。 用 户 可 以 指定 
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要 保留 的 属性 数量 ， 或 者 设置 一 个 阔 值 ， 丢 弃 所 有 低 于 该 值 的 属性 。 

最 后 ，Ranker 实际 上 不 是 搜索 属性 子 集 的 方法 ， 而 是 对 单个 属性 进行 排名 的 方案 。 通 
过 单个 属性 评估 对 属性 排序 ， 只 能 用 于 单个 属性 的 评估 器 ， 不 能 用 于 属性 子 集 评 估 器 。 
Ranker 不 仅 能 对 属性 排名 ， 还 能 通过 删除 较 低 排名 的 属性 来 完成 属性 选择 。 用 户 可 以 设置 
一 个 截止 阅 值 ， 丢 弃 低 于 该 值 的 所 有 属性 ， 或 者 指定 保留 多 少 属性 。 用 户 可 以 指定 某 些 不 
论 其 排名 情况 而 必须 保留 的 属性 。 


2.6.3 手把手 教 你 用 
1. 手工 选择 属性 


本 次 实践 的 任务 是 手工 选择 玻璃 数据 集 的 属性 集 ， 使 用 IBk 算法 和 交叉 验证 ， 探 究 哪 
个 属性 子 集 能 产生 最 佳 的 分 类 准确 率 。Weka 已 经 自 带 有 自动 的 属性 选择 功能 ， 后 文 将 进 
行 介绍 ， 但 是 ， 手 工 执行 本 操作 能 让 读者 直观 了 解 属性 选择 的 工作 原理 ， 更 有 启发 意义 。 

首先 ， 在 Weka 的 预 处 理 标 签 页 中 加 载 glass.arff 文件 ， 可 以 观察 到 ， 如 果 不 计 最 后 一 
个 类 别 属性 ， 玻 璃 数据 集 一 共有 九 个 属性 。 在 Attributes 子 面板 中 ， 通 过 选中 属性 表格 里 
属性 名 称 前 面 的 复 选 框 ， 选 择 欲 移 除 的 属性 ， 然 后 单 击 Remove 按钮 移 除 选中 的 属性 ， 使 
用 剩 下 的 属性 子 集 进行 测试 。 当 然 ， 也 可 以 使 用 Remove 过 滤器 完成 同样 的 工作 。 

这 里 采用 逐步 消去 属性 的 方法 。 其 步骤 是 ， 首 先 分 别 从 完整 的 数据 集中 移 除 一 个 单个 
属性 ， 形 成 一 个 属性 子 集 ， 对 每 一 个 数据 子 集 版 本 运行 交叉 验证 ， 这 样 就 可 以 确定 最 佳 的 
八 个 属性 的 数据 集 。 按 照 这 种 方式 重复 ， 只 不 过 每 次 移 除 二 个 单个 属性 ， 在 减少 的 数据 集 
上 实施 交叉 验证 ， 可 以 找到 最 佳 的 七 个 属性 的 数据 集 ， 以 此 类 推 。 

测试 的 步骤 是 ， 在 预 处 理 面板 选择 好 数据 子 集 后 ， 切 换 至 分 类 面板 ， 选 择 IBk 分 类 器 
和 十 折 交 叉 验 证 方案 ， 单 击 Start 按钮 启动 分 类 ， 记 录 正 确 分 类 的 百分比 ， 然 后 返回 预 处 理 
面板 选择 下 一 轮 的 数据 子 集 ， 如 此 反复 ， 如 图 2.88 所 示 。 
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2.88 ”测试 结果 
将 每 次 的 测试 结果 填 入 表 2.11 中 。 该 表 的 第 一 行 数据 已 经 填 好 ， 请 读者 填写 其 余 的 数据 。 
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表 2.11 使 用 IBk 对 于 不 同属 性 子 集 得 到 的 准确 率 


数据 子 集 大 小 (属性 数量 ) 最 佳 子 集 的 属性 分 类 准确 率 
9 RI, Na, Mg, Al, Si, K, Ca, Ba, Fe 70.5607% 
8 
6 
5 
4 
3 
4 
1 
0 


为 了 方便 读者 对 照 ， 表 2.11 列 出 答案 。 从 表 中 难以 看 出 这 是 一 项 艰巨 的 工作 ， 一 共 需 
要 完成 实验 512 次 ， 即 

C+CS+CI+Cs +CI +CI+CI +CI+CI+C? 

=1+9+36+84+126+126+84+36+9+1 

=5$12 (次 ) 

如 果 每 分 钟 完 成 一 个 实验 ， 也 需要 将 近 9 个 小 时 才能 完成 。 


表 2.12 使 用 IBk 对 于 不 同属 性 子 集 得 到 的 准确 率 答案 


数据 子 集 大 小 (属性 数量 最 佳 子 集 的 属性 分 类 准确 率 
9 RI, Na, Mg, Al, Si, K, Ca, Ba, Fe 70.5607% 
3 RI, Na, Mg, Al, Si, K, Ca, Ba 77.1028% 
7 RI, Na, Mg, Al, K, Ca, Ba 77.5701% 
6 RI, Na, Mg, K, Ca, Ba 78.9720% 
EE RI, Mg, Al, K, Ca 79.4393% 
4 RI, Mg, K, Ca 77.1028% 
| RI, K, Ca 73.8318% 
2 RI, Mg 65.8879% 
1 Al 52.3364% 
0 35.5140% 


从 表 2.12 看 到 ， 使 用 IBk 分 类 器 能 达到 的 最 高 分 类 准确 率 为 79.4393%， 只 需要 在 9 
个 属性 中 选取 5 个 属性 就 足够 了 ， 更 多 的 属性 反而 会 降低 准确 率 。 即 最 佳 的 属性 子 集 得 到 
的 分 类 准确 率 高 于 完整 数据 集 得 到 的 分 类 准确 率 ， 请 读者 想 一 想 ， 这 是 为 什么 ? 

2. 自动 属性 选择 

在 大 多 数 有 监督 学 习 的 实际 应 用 中 ， 并 不 是 所 有 的 属性 在 预测 目标 方面 都 具有 同等 的 
重要 性 。 对 于 一 些 学 习 方 案 ， 宛 余 或 不 相关 的 属性 可 能 导致 不 准确 的 模型 。 正 如 在 上 一 个 
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实验 中 发 现 的 那样 ， 在 数据 集中 手工 选择 有 用 的 属性 是 非常 烦琐 而 乏味 的 ， 自 动 的 属性 选 
择 方法 通常 更 快 更 好 。 

属性 选择 方法 可 以 分 为 过 滤器 和 包装 方法 。 前 者 应 用 低 计算 开销 的 启发 式 方法 来 衡量 
属性 子 集 的 质量 ， 后 者 通过 构建 和 评估 实际 的 分 类 模型 ， 衡 量 属性 子 集 的 质量 ， 计 算 开销 
较 大 ， 但 往往 性 能 超 好 。 

探索 者 界面 中 的 Select attributes( 选 择 属 性 ) 面 板 将 属性 选择 方法 应 用 到 数据 集 。 默 认 使 
用 CfsSubsetEval 评估 器 来 评估 属性 子 集 。 另 一 种 方法 是 使 用 InfoGainAttributeEval 等 评估 
器 ， 评 估 单 个 的 属性 ， 然 后 通过 使 用 一 种 特殊 的 “搜索 ”方法 ( 即 Ranker)， 对 这 些 属性 进 
行 排名 。 

下 面 首先 使 用 InfoGainAttributeEval 评估 器 和 Ranker 搜索 方法 对 属性 排名 。 有 具体 步 又 
如 下 。 

首先 加 载 劳工 数据 集 ， 即 labor.arff 文件， 然后 单 击 Select attributes 标签 页 ， 切 换 至 选择 
属性 面板 。 在 Attribute Evaluator 子 面板 中 ， 单 击 Choose 按钮 ， 选 择 InfoGainAttributeEval， 
这 时 会 弹出 如 图 2.89 所 示 的 警告 窗口 ， 询 问 是 否 需 要 选择 Ranker 搜索 方法 ， 单 击 “ 是 ” 
按钮 确认 。 


You must aze use the Rankcer saurch method in order to use 
aa mttribateSelection InfyGainkttribateEval 
Should I select the Reker rearch aethod for you? 


[El so | 


2.89 ”警告 窗口 
单 击 Start 按钮 启动 自动 属性 选择 评估 及 搜索 算法 ， 图 2.90 显示 运行 结果 。 
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2.90 InfoGainAttributeEval 运行 结果 


从 运行 结果 中 可 以 看 到 ， 属 性 选择 输出 中 已 经 按照 各 个 属性 在 预测 目标 方面 的 重要 程 
度 进 行 排序 ， 用 户 可 按照 排名 后 的 重要 程度 选取 一 定 的 属性 子 集 。 

与 上 述 使 用 InfoGainAttributeEval 评估 器 的 信息 增益 方法 不 同 ，CfsSubsetEval 目标 是 
确定 一 个 属性 子 集 ， 它 与 目标 属性 相关 性 强 ， 同 时 相互 之 间 又 没有 强 相关 性 。 默 认 情 况 


下 ， 它 使 用 BestFirst 搜索 方法 ， 但 也 可 以 选择 其 他 方法 ， 搜 索 可 能 的 属性 子 集 空 间 中 “最 
好 ”的 那 一 个 。 实 际 应 用 时 可 选择 GreedyStepwise， 并 设置 searchBackwards( 向 后 搜索 ) 参 
数 为 True。 

还 是 使 用 劳工 数据 集 ， 在 选择 属性 面板 的 Attribute Evaluator 子 面板 中 选择 
CfsSubsetEval ， 这 时 会 弹出 如 图 2.91 所 示 的 警告 对 话 框 ， 询 问 是 否 需要 选择 
GreedyStepwise 搜索 方法 ， 单 击 “ 是 ”按钮 确认 。 
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2.91 警告 对 话 框 
单 击 Search Method 子 面板 中 的 Choose 按钮 旁边 的 输入 框 ， 在 弹出 的 通用 对 象 编辑 器 
中 将 searchBackwards 参数 设置 为 True， 关 闭 通用 对 象 编辑 器 对 话 框 ， 然 后 单 击 Start 按钮 
启动 自动 属性 选择 评估 及 搜索 算法 ， 图 2.92 显示 运行 结果 。 
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图 2.92 CfsSubsetEval 运行 结果 


从 属性 选择 输出 结果 中 可 以 看 到 ， 最 佳 的 属性 子 集 已 经 选择 出 来 了 ， 共 有 7 个 属性 ， 
还 显示 出 所 选择 的 属性 索引 和 属性 名 称 。 读 者 可 以 将 搜索 方法 由 GreedyStepwise 改 为 
BestFirst， 对 于 本 例 来 说 ， 运 行 的 结果 都 是 一 样 的 ， 都 选取 第 2、3、5、11、12、13、14 
共 7 个 属性 。 

如 果 要 使 用 的 包装 器 方法 ， 而 不 使 用 如 同 CfsSubsetEval 那样 的 过 滤器 方法 ， 那 么 ， 首 
先 要 选择 WrapperSubsetEval 评估 器 ， 然 后 选择 学 习 算 法 ， 设 置 评 估 属 性 子 集 所 使 用 的 交 
叉 验证 的 折 数 等 选项 。 

使 用 包装 方法 处 理 劳工 数据 集 的 步骤 是 ， 选 择 WrapperSubsetEval 评估 器 ， 设 置 基 学 
习 器 classifier 选项 为 48， 设 置 使 用 BestFirst 搜索 方法 。 单 击 Start 按钮 启动 自动 属性 选择 
评估 及 搜索 算法 ， 图 2.93 显示 运行 结果 。 
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2.93 ”WrapperSubsetEval 运行 结果 


现在 检查 图 2.92 和 图 2.93 的 最 佳 属性 子 集 结果 ， 前 者 输出 第 2、3、5、11、12、13、 
14 共 7 个 属性 ， 后 者 输出 1、2、4、6、11、12 共 6 个 属性 ， 两 种 方法 都 选择 出 来 的 属性 
为 2、11、12。 对 照 图 2.93 的 输出 结果 ， 两 者 都 选择 出 来 的 属性 分 别 位 于 信息 增益 输出 的 
第 2 位 、 第 3 位、 第 6 位 ， 排 名 靠 前 。 这 说 明 尽 管 三 种 方法 得 出 的 结论 不 同 ， 有 的 属性 由 
于 与 类 别 属性 的 相关 性 强 ， 很 多 算法 都 会 选中 。 

最 后 ， 研 究 一 下 到 底 后 两 种 方法 哪 种 更 符合 实际 。 使 用 J48 分 类 器 ， 十 折 交 叉 验 证 ， 
比较 CfsSubsetEval 和 WrapperSubsetEval 两 种 算法 选 出 来 的 属性 子 集 对 分 类 准确 度 的 影 
响 ， 如 表 2.13 所 示 。 


表 2.13 不 同 自动 属性 选择 的 实际 性 能 比较 


评估 策略 分 类 准确 度 
十 折 交 叉 验证 73.6842 % 


2 | J48 | 十 折 交 叉 验证 77.193% 
下 | 148 。 | 十 折 交 又 验证 80.7018% 


表 2.13 的 第 一 行为 参照 数据 ， 没 有 进行 属性 选择 。 由 结果 可 以 大 致 可 靠 地 得 出 如 下 结论 。 

第 一 ， 经 过 属性 选择 后 ， 分 类 准确 度 得 到 提高 。 

第 二 ， 对 于 本 例 ， 相 对 于 CfsSubsetEval 算法 选 出 来 的 7 个 属性 ，WrapperSubsetEval 
算法 只 选 出 来 6 个 属性 ， 属 性 子 集 更 小 但 效果 更 好 。 

3. 深入 研究 自动 属性 选择 

选择 属性 面板 能 让 用 户 通过 属性 选择 方法 ， 深 入 了 解数 据 集 。 然 而 ， 与 有 监督 离散 化 
过 滤 方 法 一 道 使 用 ， 如 果 减 少 后 的 数据 集 的 一 部 分 用 于 模型 测试 (如 交叉 验证 )， 就 会 带 来 
一 些 问 题 。 其 原因 是 ， 在 选择 属性 时 就 已 经 看 到 了 在 测试 数据 中 要 使 用 的 类 别 标签 ， 使 用 
测试 数据 信息 影响 了 模型 的 构建 导致 有 偏 倚 的 准确 性 估计 。 

要 避免 上 述 问题 ， 可 以 将 数据 分 为 训练 集 和 测试 集 ， 属 性 选择 只 针对 训练 集 。 然 而 ， 
通常 更 方便 的 是 使 用 AttributeSelectedClassifer 分 类 器 ， 这 是 Weka 的 一 种 元 学 习 器 ， 它 允 


许 指定 属性 选择 方法 和 学 习 算法 ， 作 为 分 类 方案 的 一 部 分 。 该 分 类 器 确保 选择 属性 子 集 仅 
基于 训练 数据 。 

现在 与 NaiveBayes 方法 一 起 使 用 ， 测 试 InfoGainAttributeEval 、CfSubsetEval 和 
WrapperSubsetEval 三 种 属性 选择 方法 。NaiveBayes 假定 属性 相互 独立 ， 因 此 属性 选择 非常 
有 帮助 。 这 里 使 用 weka.filters.unsupervised.attribute.Copy 过 滤器 ， 添 加 多 个 属性 复制 ， 由 
于 每 个 副本 都 明显 与 原来 的 数据 完全 相关 ， 读 者 可 以 看 到 所 形成 元 余 属 性 的 效果 。 步 又 如 下 。 

首先 在 预 处 理 面板 加 载 功 尾 花 数据 集 ， 然 后 添加 无 监督 的 属性 Copy 过 滤器 ， 将 
attributeIndices 选项 设置 为 “1-4”， 即 复制 第 1 一 4 个 属性 ， 如 图 2.94 所 示 。 然 后 ， 应 用 
该 过 滤器 ， 可 以 看 到 数据 集 已 经 多 出 了 4 个 属性 ， 连 上 类 别 属性 一 共有 9 个 属性 。 

下 一 步 ， 切 换 至 分 类 面板 。 这 时 ， 应 该 注意 一 个 问题 ， 由 于 复制 后 的 属性 都 是 在 尾部 
添加 ， 因 此 原来 的 类 别 属 性 就 变 成 不 是 默认 的 最 末 一 个 属性 ， 一 定 要 记得 在 Start 按钮 上 面 
的 下 拉 框 中 选择 正确 的 类 别 属性 ， 这 里 是 (Nom)class。 然 后 ， 选 择 AttributeSelectedClassifer 
分 类 器 ， 编 辑 该 分 类 器 的 选项 ， 将 基 分 类 器 classifer 选项 设置 为 NaiveBayes， 将 基 分 类 器 
的 选项 useSupervisedDiscretization 设置 为 True， 该 选项 的 功能 是 使 用 有 监督 的 离散 化 将 数 
值 属性 转换 为 标 称 属性 ; 将 evaluator 选项 设置 为 InfoGainAttributeEval; 将 search 选项 设 
置 为 Ranker， 将 Ranker 算法 的 numToSelect 选项 设置 为 3， 以 指定 排名 属性 的 数目 。 完 成 
以 后 的 通用 对 象 编辑 对 话 框 如 图 2.95 所 示 。 
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关闭 对 话 框 ， 使 用 十 折 交 叉 验 证 测试 策略 ， 单 击 Start 按钮 运行 元 分 类 器 ， 将 运行 结果 
填 入 表 2.14 中 。 
表 2.14 AttributeSelectedClassifer 元 分 类 器 不 同 评估 器 的 效果 


序号 | 基 分 类 器 及 参数 评估 器 属性 子 集 分 类 准确 度 
petallength, Copy 

1 NaiveBayes -D InfoGainAttributeEval of petallength, 93.3333% 
Copy of petalwidth 
petallength, 

量 NaiveBayes -D CfsSubsetEval BestFirst petalwidth，Copy 94% 
of petalwidth 

和 NaiveBayes -D WrapperSubsetEval BestFirst petalwidth 94% 
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按照 同样 的 方法 ， 分 别 使 用 CfsSubsetEval 和 WrapperSubsetEval 评估 器 ， 将 运行 结果 
填 入 表 2.14 中 。 在 WrapperSubsetEval 评估 器 内 部 指定 NaiveBayes 作为 基 分 类 器 ， 因 为 它 
正 是 选择 属性 子 集 的 分 类 器 。 

可 见 ， 第 1 和 第 2 种 自动 属性 算法 并 没有 将 抑 余 的 属性 分 开 ， 属 性 子 集中 都 多 出 了 一 
个 复制 (Copy of) 属 性 。 而 第 3 种 自动 属性 算法 所 选择 的 属性 子 集 只 含有 一 个 属性 。 

4. 自动 参数 调节 

许多 学 习 算法 的 参数 可 以 影响 学 习 的 结果 。 例 如 ， 决 策 树 学 习 器 C4.5 有 两 个 参数 影响 
剪 枝 的 量 ， 一 个 是 叶子 节点 中 所 需 实例 的 最 小 数量 ， 另 一 个 是 用 于 剪 枝 的 置信 系数 。k- 最 
近邻 分 类 IBk 有 一 个 参数 (设置 邻居 的 大 小 。 手 动 调整 参数 设置 很 烦琐 ， 就 像 手动 选择 属 
性 一 样 ， 并 且 也 有 同样 的 问题 : 在 选择 参数 时 ， 一 定 不 要 使 用 测试 数据 ， 和 否则， 性 能 估计 
会 有 所 偏 倚 。 

Weka 提供 元 学 习 器 CVParameterSelection， 通 过 优化 训练 数据 交叉 验证 的 准确 性 ， 搜 
索 以 获得 最 佳 的 参数 设置 。 默 认 情 况 下 ， 每 个 设置 使 用 十 折 交 叉 验 证 进行 评估 。 使 用 
CVParameters 参数 ， 在 通用 对 象 编辑 器 窗口 中 指定 要 优化 的 参数 。 对 于 每 个 参数 ， 必 须 提 
供 三 类 信息 : 四 一 个 字符 串 ， 使 用 字母 代码 进行 命名 (在 Javadoc 中 可 以 找到 分 类 器 的 相应 
参数 )，@@ 进 行 评估 数值 的 范围 ，@ 在 该 范围 内 尝试 的 步 数 为 一 个 数字 。 例 如 ， 从 1 一 10 增 
量 为 1， 搜 寻 参 数 -P 可 写 为 : “P11010”。 

下 面 使 用 具体 示例 予以 说 明 。 使 用 CVParameterSelection 元 分 类 器 ， 自 动 选择 IBk 的 
邻居 大 小 的 最 优 值 ， 范 围 从 1 一 10 分 10 步 。 

首先 加 载 diabetes.arff 文件 ， 在 Classify 面板 中 选择 CVParameterSelection 元 分 类 器 ， 
单 击 Choose 按钮 后 面 的 编辑 框 ， 弹 出 通用 对 象 编辑 器 窗口 。 在 该 窗口 中 单 击 Choose 按 
钮 ， 选 择 IBk 作为 基 分 类 器 。 然 后 ， 单 击 CVParameters 后 面 的 编辑 框 ， 会 弹出 一 个 通用 数 
组 编辑 器 窗口 。 在 该 窗口 顶部 的 文本 编辑 框 中 输入 “K 1 10 10”， 分别 代表 KNN 字母 代 
码 、1 一 10 范围 、10 步 。 单 击 Add 按钮 添加 ， 如 果 还 需要 评估 其 他 参数 ， 可 以 重复 输入 ， 
输入 完毕 后 关闭 该 窗口 ， 如 图 2.96 所 示 。 注 意 到 在 单 击 Add 按钮 后 ，Weka 会 自动 在 数值 
参数 后 添加 “.0”。 

完成 设置 后 ， 单 击 Start 按钮 启动 评估 ， 运 行 结果 如 图 2.97 所 示 。 


reevesss hentty | Cheter | eeeaets| Sohoet sttrshates | Varmalsse| 


et 
| 


| Aad 


Delete | Eait 闻 i EE ap 


图 2.96 通用 数组 编辑 器 窗口 图 2.97 ”运行 结果 


从 运行 结果 中 可 以 看 到 ， 当 K 值 为 7 时 ，IBk 的 分 类 准确 度 最 高 ， 为 73.9583 %。 

现在 整定 J48 的 参数 。 如 果 CVParameters 字段 有 一 个 以 上 的 参数 ， 
CVParameterSelection 会 同时 对 多 个 参数 执行 网 格 搜索 。 修 剪 置信 参数 的 字母 代码 是 C， 评 
估 值 从 0.1 一 0.5 的 5 个 步骤 。 叶 子 节点 中 所 需 实 例 的 最 小 数量 参数 的 字母 代码 是 M， 评 估 
值 从 1 到 10 的 10 个 步骤 ， 如 图 2.98 所 示 。 
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图 2.98 J48 运行 结果 


从 运行 结果 可 以 看 到 ， 整 定 后 的 参数 为 : -M 10 -C 0.2， 分 类 准确 度 为 74.349%， 决 策 
树 的 叶子 节点 数 为 15， 树 大 小 为 29。 可 以 和 使 用 默认 参数 的 J48 做 一 个 对 比 ， 默 认 参 数 
为 : -C 0.25 -M 2， 其 分 类 准确 度 为 73.8281%， 决 策 树 的 叶子 节点 数 为 20， 树 大 小 为 39。 
综合 上 述 ， 可 以 得 出 结论 : 优化 参数 后 ， 对 性 能 提升 很 大 。 


2.7 可 视 化 


可 视 化 是 指 以 图 形 或 表格 的 形式 展示 信息 ， 一 般 需要 将 数据 包含 的 信息 转换 为 可 视 的 
形式 ， 以 分 析 或 总 结 数据 的 特征 以 及 属性 之 间 的 关系 。 由 于 人 类 能 够 快速 理解 大 量 的 可 视 
化 信息 ， 发 现 其 中 的 模式 ， 因 而 分 析 可 视 化 十 分 重要 。 另 外 ， 以 直观 的 可 视 化 方式 提供 结 
果 ， 便 于 领域 专家 更 容易 排除 无 意义 的 模式 ， 从 而 发 现 重要 的 模式 。 处 理 多 属性 的 最 常用 
方法 是 构造 双 属 性 的 散 点 图 ， 以 显示 两 个 属性 值 之 间 的 关系 ， 便 于 用 户 观 察 ，Weka 为 用 
户 提供 了 这 个 方便 。 

Weka 探索 者 Visualize( 可 视 化 ) 面 板 可 以 帮助 用 户 可 视 化 数据 集 ， 注 意 到 这 里 的 可 视 化 
对 象 并 非 分 类 或 聚 类 模型 的 结果 ， 而 是 数据 集 本 身 。 它 显示 一 个 二 维 散 点 图 矩阵 ， 每 个 单 
元 格 对 应 一 对 属性 。 二 维 散 点 图 矩阵 有 两 个 主要 的 用 途 ， 第 一 ， 可 以 直观 地 以 图 形 方式 显 
示 两 个 属性 之 间 的 关系 ; 第 二 ， 当 给 定 类 别 标签 后 ， 可 以 用 它 来 观察 两 个 属性 分 开 类 别 的 
程度 。 如 果 能 用 一 条 直线 或 曲线 将 两 个 属性 定义 的 平面 分 成 一 些 区 域 ， 每 个 区 域 包含 一 个 
类 别 的 大 部 分 对 象 ， 则 可 以 基于 给 定 的 两 个 属性 构建 精确 的 分 类 器 ， 否则， 只 能 用 更 多 的 
属性 或 更 复杂 的 方法 构建 分 类 器 。 

图 2.99 显示 iris 数据 集 。 用 户 可 以 选择 一 个 属性 (通常 是 分 类 属性 ) 对 数据 点 着 色 ， 单 
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后 窗口 底部 的 控件 ， 选 择 颜 色 即 可 。 如 果 分 类 属性 是 标 称 型 ， 显 示 离 散 的 着 色 (图 2.99 显 
示 了 三 种 类 别 的 不 同 颜色 ); 如 果 是 数值 型 ， 显 示 彩 色 条 ， 根 据 连 续 值 从 低 到 高 ， 对 应 的 颜 
色 从 蓝 色 变 到 栖 色 。 没 有 分 类 值 的 数据 点 显示 为 黑色 。 


时 | 
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图 2.99 可 视 化 iris 数据 集 


PlotSize( 图 大 小 ) 滑 块 和 PointSize( 点 大 小 ) 滑 块 分 别 用 于 改变 每 一 个 单个 2D 散 点 图 的 
大 小 和 数据 点 的 大 小 ，Jitter( 抖 动 ) 滑 块 用 于 随机 抖动 数据 使 被 遮挡 的 点 可 见 ， 
“colourxxx” 下 拉 列 表 框 用 于 更 改 着 色 的 属性 ，Select Attributes( 选 择 属 性 ) 按 钮 用 于 选择 
包含 在 散 点 图 和 矩阵 中 的 属性 子 集 ，SubSample( 二 次 抽样 ) 按 钮 用 于 对 数据 进行 二 次 抽样 。 需 
要 注意 的 是 ， 只 有 单 击 Update( 更 新 ) 按 钮 后 ， 上 述 更 改 才 会 生效 。 


2.7.1 选择 单独 的 2D 散 点 图 


当 用 户 单 击 散 点 图 矩阵 中 的 一 个 单元 格 ， 将 弹出 一 个 单独 的 窗口 ， 显 示 用 户 选 择 的 可 
视 化 散 点 图 。 注 意 到 不 同 于 前 文 叙 述 的 分 类 错误 可 视 化 ， 那 是 如 何在 一 个 单独 窗口 中 可 视 
化 特定 结果 ， 而 这 里 的 可 视 化 对 象 是 数据 集 本 身 ， 尽 管 操作 相似 。 

在 窗口 的 主要 区 域 中 绘制 数据 点 ， 顶 部 有 两 个 下 拉 列 表 框 用 于 选择 图 轴 。 左 侧 的 下 拉 
列表 框 显示 可 用 于 x 轴 的 属性 ， 右 侧 的 下 拉 列 表 框 显示 可 用 于 了 轴 的 属性 。 

位 于 了 轴 选择 器 之 下 ， 是 一 个 选择 配色 方案 的 下 拉 列 表 框 ， 让 用 户 根据 所 选 属性 对 数 
据点 着 色 。 在 绘图 区 域 下 方 有 一 个 图 例 ， 描 述 何 值 对 应 何 种 颜色 。 如 果 值 是 离散 的 ， 可 以 
为 每 个 值 更 改 颜 色 ， 单 击 并 在 弹出 窗口 中 做 适当 的 修改 。 

在 绘图 区 的 右 侧 是 一 连 串 横 条 ， 每 条 代表 一 个 属性 ， 横 条 内 部 的 点 显示 属性 值 的 分 
布 。 这 些 值 垂 直 随 机 分 布 ， 帮 助 用 户 了 解 点 的 密度 。 单 击 横 条 即 可 以 选择 将 该 条 属性 轴 用 
于 主 图 ， 单 击 属性 条 设置 该 属性 为 轴 ， 右 击 设置 为 了 轴 。 横 条 旁边 的 “X” 和 “YY” 显 
示 当 前 轴 对 应 的 属性 ，“B” 表 示 一 个 属性 同时 用 作 茸 轴 和 了 轴 。 

在 属性 横 条 的 上 方 ， 有 一 个 标签 为 Jitter 的 滑 块 ， 功 能 是 随机 位 移 图 中 的 所 有 点 。 将 
滑 块 向 右 拖 动 增加 抖动 量 ， 这 在 观察 高 密度 重 倒 的 点 方面 非常 有 用 。 如 果 不 设 抖动 ， 在 同 
一 点 上 有 一 百 万 个 实例 ， 看 起 来 与 只 有 一 个 单独 实例 的 点 没有 什么 不 同 。 


2.7.2 ”选择 实例 


可 能 会 有 这 种 情况 ， 需 要 使 用 可 视 化 工具 来 选择 数据 的 子 集 。 前 文 (参见 “使 用 用 户 分 
类 器 ”) 已 经 讲述 过 这 样 一 个 示例 ， 使 用 分 类 面板 下 的 UserClassifier 分 类 器 ， 用 户 通 过 交 
互 选 择 实例 ， 构 建 自己 的 分 类 器 。 

在 了 轴 选 择 器 按钮 的 下 方 ， 有 一 个 下 拉 列 表 框 ， 从 中 选择 一 种 选择 方式 。 可 以 采用 四 
种 方式 来 选择 一 组 数据 点 。 

(1) Select Instance( 选 择 实例 )。 单 击 一 个 单独 的 数据 点 会 弹出 一 个 窗口 ， 列 示 它 的 属 
性 。 如 果 在 同一 位 置 出 现 一 个 以 上 的 点 ， 就 显示 多 条 属性 。 

(2) Rectangle( 矩 形 )。 可 以 通过 拖 动 创建 一 个 矩形 ， 将 要 选择 的 点 包括 在 内 。 

(3) Polygon( 多 边 形 )。 可 以 创建 一 个 自由 形状 的 多 边 形 ， 包 括 要 选择 的 点 在 内 。 单 击 添 
加 多 边 形 的 顶点 ， 右 击 完成 。 完 成 后 ， 多 边 形 会 将 第 一 个 点 与 最 后 一 个 点 相连 接 ， 因 此 多 
边 形 永 远 都 是 封闭 的 。 

(4) Polyline( 多 折线 )。 可 以 创建 一 个 多 折线 ， 把 一 侧 的 点 与 另 一 侧 的 点 分 隔 开 来 。 单 击 
添加 折线 的 顶点 ， 右 击 完 成 。 相 对 于 多 边 形 的 形状 始终 是 封闭 的 ， 多 折线 得 到 的 形状 是 开 
放 的 。 

如 果 使 用 矩形 、 多 边 形 或 多 折线 选中 一 个 图 形 区 域 ， 该 区 域 会 变 成 灰色 。 这 时 ， 单 击 
Submit 按钮 ， 会 删除 除 那 些 灰 色 的 选择 区 域内 以 外 的 所 有 实例 。 单 击 Clear 按钮 清除 选 定 
区 域 ， 而 不 影响 图 形 。 

如 果 从 图 中 已 经 删除 了 一 些 点 ，Submit 按钮 会 变 成 Reset 按钮 。 单 击 Reset 按钮 撤消 
先前 所 有 的 删除 操作 ， 并 回 到 原来 包括 所 有 点 的 图 。 最 后 ， 单 击 Save 按钮 可 以 将 当前 可 
见 的 实例 保存 为 新 的 ARFF 文件 。 


2.7.3 手把手 教 你 


1. 可 视 化 面板 的 使 用 


Weka 的 可 视 化 功能 最 适合 于 观察 研究 数值 型 数据 集 ， 因 此 加 载 iris.arff 文件 。 意 尾 花 
数据 集 包 含 三 种 类 型 ，Iris setosa、Iris versicolor 和 Iris virginica， 各 有 50 个 样本 。 

单 击 Visualize 页 标签 ， 看 到 如 图 2.100 所 示 的 可 视 化 面板 。 图 中 是 5 行 5 列 的 小 散 
点 图 ， 即 横 坐 标 和 纵 坐 标 都 为 5， 对 应 数据 集 里 的 5 个 属性 一 一 sepallength( 花 莹 长 )、 
sepallwidth( 花 苯 宽 )、petallength( 花 辩 长 )、petalwidth( 花 闪 宽 ) 和 class( 类 别 )。 

单 击 第 2 行 第 1 列 的 小 散 点 图 ， 就 会 弹出 如 图 2.101 所 示 的 放大 散 点 图 。 其 中 ， 横 坐 
标 是 sepallength 属性 ， 纵 坐标 是 petalwidth 属性 。 实 例 显示 为 小 十 字 ， 颜 色 由 实例 的 类 别 
确定 。 散 点 图 的 上 部 有 四 个 下 拉 列 表 框 ， 分 别 用 于 选择 X 坐标 、Y 坐标 、 颜 色 、 选 择 实 
例 ， 还 有 四 个 按钮 和 名 为 Jitter 的 滑 块 。 

单 击 图 2.101 中 的 任意 一 个 小 十 字 ， 就 会 弹出 如 图 2.102 所 示 的 实例 信息 窗口 ， 列 出 
所 选 实 例 的 全 部 属性 值 。 观 察 后 关闭 该 窗口 ， 回 到 图 2.101 所 示 的 窗口 。 

现在 通过 放大 的 散 点 图 窗口 上 部 的 下 拉 列 表 框 ， 将 X 坐标 设置 为 petalwidth，Y 坐标 
设置 为 petallength， 观 察 散 点 图 的 变化 情况 。Color: class (Num) 用 于 改变 颜色 编码 。 
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图 2.101 放大 的 散 点 图 图 2.102 ”实例 信息 窗口 


散 点 图 窗口 右 部 的 条 状 图 每 条 表示 一 个 属性 ， 条 状 图 左边 的 红色 X 和 Y 字符 分 别 表 
示 当 前 的 X 坐标 和 Y 坐标 为 何 种 属性 。 每 条 条 状 图 中 ， 将 实例 放置 在 适当 的 水 平 位 置 ， 
并 随机 分 布 在 垂直 方向 上 。 单 击 条 状 图 ， 使 用 对 应 属性 作为 散 点 图 的 X 坐标 。 用 鼠标 右 击 
条 状 图 ， 使 用 对 应 属性 作为 散 点 图 的 Y 坐标 。 使 用 上 述 方法 将 X 坐标 和 Y 坐标 分 别 改 回 
sepallength 属性 和 petalwidth 属性 。 

Jitter 滑 块 随机 移动 代表 实例 的 小 十 字 ， 这 是 为 了 能 显示 彼此 重 又 的 每 个 实例 的 真实 位 
置 。 例如， 图 2.102 中 所 显示 的 两 个 实例 ， 在 图 2.101 中 重叠 为 一 个 点 。 读 者 通过 移动 滑 
块 体验 其 效果 。 

Select Instance( 选 择 实例 ) 下 拉 列 表 框 ， 以 及 Reset、Clear、Save 按钮 ， 让 用 户 修改 数 
据 集 。 可 以 选择 某 些 实例 并 删除 其 他 实例 。 例 如 ， 尝 试 这 样 使 用 Rectangle( 和 矩形 ) 选 项 : 首 
先 从 下 拉 框 中 选中 Rectangle 选项 ， 然 后 单 击 并 拖 动 鼠标 来 选择 一 个 区 域 。 这 时 ，Reset 按 
钮 会 自动 变 成 Submit 按钮 ， 单 击 Submit 按钮 ， 和 矩形 以 外 的 所 有 实例 都 将 被 删除 。 用 户 可 
以 使 用 Save 按钮 将 修改 过 的 数据 集 保存 到 文件 中 ， 当 然 ，Open 按钮 可 以 打开 保存 后 的 数 
据 集 文件 。 单 击 Reset 按钮 ， 可 以 恢复 到 原来 的 数据 集 。 


@« 


2. 可 视 化 数值 型 类 别 属 性 

在 前 一 个 例子 中 ， 尽 管 有 多 个 属性 是 数值 型 的 ， 但 类 别 属性 却 是 标 称 型 的 。 本 例 查看 
类 别 属性 为 数值 型 的 数据 集 ， 加 载 data 目录 下 的 cpu.arff 文件 ， 单 击 Visualize 标签 页 切换 
到 可 视 化 面板 ， 如 图 2.103 所 示 。 
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图 2.103 ”可视化 cpu 数据 集 


注意 到 窗口 底部 的 颜色 编码 和 前 例 不 同 ， 这 里 显示 彩色 的 细 横 条 ， 从 左 到 右 颜 色 连 续 
由 蓝 色 逐渐 变 到 橙色 。 

此 外 ， 其 他 功能 都 与 类 别 属 性 为 标 称 型 的 一 样 ， 读 者 可 自行 尝试 上 一 个 实验 的 所 有 
操作 。 
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2.1 加载 weathernominal.ar 任 文件 后 ， temperature 属性 可 以 有 哪些 合法 值 ? 

2.2 ”加载 iris.arff 文件 后 ， 该 数据 集 有 多 少 个 实例 ? 有 多 少 个 属性 ? petalwidth 属性 
值 可 取 的 范围 是 多 少 ? 

2.3 ”使 用 数据 集 编辑 器 打开 weather.nominal.arff 文件 ， 实 例 编号 为 2 的 分 类 属性 值 是 
多 少 ? 

2.4 使 用 数据 集 编辑 器 加 载 iris 数据 集 ， 该 数据 集 的 属性 中 有 多 少 个 是 数值 型 的 ? 又 
有 多 少 个 是 标 称 型 的 ? 

2.5 加 载 weathernominal 数据 集 ， 使 用 weka.unsupervised.instance RemoveWithValues 
过 滤器 去 除 humidity 属性 值 为 high 的 全 部 实例 。 

提示 : 首先 选择 RemoveWithValues 过 滤器 ， 然 后 在 通用 对 象 编辑 器 窗口 中 尝试 调整 
参数 ， 再 清楚 每 个 参数 的 含义 ， 并 解决 问题 。 

2.6 根据 图 2.49 的 决策 树 ， 下 列 实例 会 怎样 进行 分 类 ? 

outlook = sunny, temperature = cool, humidity = high, windy= TRUE 

2.7 使 用 离散 化 处 理 过 的 属性 ， 某 些 属性 在 直方 图 中 只 有 单一 一 栏 ， 这 是 怎么 回 事 ? 

2.8 使 用 FilteredClassifier 和 J48， 并 采用 有 监督 的 二 元 离散 化 ， 与 只 使 用 J48 处 理 原 
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始 数据 的 结果 相 比 较 。 为 何 从 离散 化 后 的 数据 构建 的 决策 树 ， 比 起 直接 从 原始 数据 构建 的 
决策 树 ， 有 更 好 的 预测 效果 ? 

2.9 对 于 “手工 选择 属性 ”实验 中 ， 是 否 可 以 使 用 J48 蔡 换 IBk? 为 什么 ? 

2.10 对 于 weather.nominal.arff 数据 ， 根 据 Apriori 算法 输出 ， 下 列 项 集 的 支持 实例 有 
见 个 ” 

temperature=cool, humidity=normal, windy=FALSE, play=yes 

2.11 假设 想 生 成 具有 一 定 的 置信 度 和 最 小 支持 度 的 全 部 规则 ， 可 以 对 minMetric、 
lowerBoundMinSupport， 以 及 numRules 参数 选择 适当 的 值 。 对 下 表 中 天 气 数 据 每 一 种 组 合 
参数 值 ， 可 能 的 规则 总 数 是 多 少 ? 
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2.12 对 labor.arff 文件 中 的 劳资 谈判 数据 应 用 排序 技术 ， 确 定 基于 信息 增益 的 四 个 最 


重要 的 属性 。 

2.13 ”使 用 劳资 谈判 数据 集 ， 运 行 基 于 相关 性 的 选择 CfsSubsetEval， 使 用 BestFirst 搜 
索 。 然 后 运行 J48 作为 基 学 习 器 的 包装 方法 ， 再 次 使 用 BestFirst 搜索 。 检 查 输 出 的 属性 
子 集 ， 这 两 种 方法 都 选择 出 来 的 有 哪些 属性 ?它们 与 使 用 信息 增益 所 生成 的 排序 输出 有 何 
关系 ? 


Y 
第 3 剖 
Knowledge Flow 界面 


知识 流 (Knowledge Flow) 界 面 是 探索 者 界面 的 有 益 补充 。 使 用 知识 流 
界面 ， 用 户 可 以 从 选项 板 中 选择 Weka 组 件 ， 将 组 件 放 置 到 布局 画布 上 ， 
并 将 它们 连接 成 有 向 图 以 进行 数据 处 理 和 分 析 。 知 识 流 界面 提供 了 探索 者 
界面 的 一 个 替代 品 ， 特 别 适 合 那些 习惯 于 思考 数据 如 何在 系统 中 流动 的 用 
户 。 通 过 它 ， 能 够 设计 和 配置 数据 流程 ， 并 执行 相应 的 数据 处 理 ， 这 在 探 


索 者 界面 中 是 无 法 做 到 的 。 
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数据 挖掘 与 机 器 学 习 
一 一 WEKA 应 用 技术 与 过 三 


户 单 击 Weka GUI 选择 器 窗口 的 右 侧 面板 上 的 Knowledge Flow 按钮 ， 就 启动 了 
如 图 3.1 所 示 的 知识 流 界面 。 
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图 3.1 知识 流 界 面 


3.1 所 示 为 知识 流 更 新 后 的 界面 ， 与 Weka 3.7.4 以 前 的 版 本 有 所 不 同 。 具 体 细节 可 
通过 单 击 知识 流 界面 右上 角 工 具 栏 的 久 图标 ， 以 查看 最 新 的 帮助 文档 。 
3.1.1 知识 流 特 性 

知识 流 界面 提供 了 探索 者 界面 的 一 个 替代 品 ， 它 是 Weka 核心 算法 的 图 形 化 前 端 ， 为 
Weka 提供 一 个 “数据 流 ” 接 口 。 用 户 可 以 从 选项 板 中 选择 Weka 组 件 ， 放 置 在 布局 画布 
上 ， 并 把 它们 连接 起 来 形成 一 个 供 处 理 和 分 析 数 据 的 “知识 流 ”。 目 前 ，Weka 的 分 类 
器 、 过 滤器 、 聚 类 器 、 加 载 器 和 保存 器 ， 以 及 一 些 额外 的 工具 ， 都 可 以 在 知识 流 中 使 用 。 

知识 流 能 以 增 量 方式 或 批量 方式 处 理 数据 ， 而 探索 者 仅 能 处 理 批量 数据 。 当 然 ， 增 量 方 
式 从 流 式 数据 中 学 习 ， 需 要 分 类 器 能 够 基于 一 个 实例 一 个 实例 地 进行 更 新 。 可 以 增 量 方式 处 
理 数 据 的 学 习 方案 有 : NaiveBayesUpdateable、IBk、LWR(Locally Weighted Regression， 局 
部 加 权 回 归 )、SGD、SPegasos、Cobweb 和 RacedIncrementalLogitBoost 等 。 

知识 流 的 特性 如 下 。 

(1) 直观 的 数据 流程 风格 的 布局 。 

(2) 批量 或 增 量 方式 处 理 数据 。 

(3) 处 理 多 批 次 或 并 行 处 理 流 式 数据 ， 即 : 每 个 单独 的 流 都 在 自己 的 线程 中 执行 。 也 
可 以 用 户 指定 顺序 ， 按 顺序 执行 多 个 数据 流 。 

(4) 将 过 滤器 串 成 链 。 

(5) 观察 由 分 类 器 产生 的 ， 使 用 交叉 验证 方式 的 每 个 折 的 模型 。 

(6) 在 处 理 过 程 中 ， 可 视 化 增 量 分 类 器 的 性 能 。 提 供 分 类 精度 、RMS 误差 、 预 测 等 的 
滚动 散 点 图 。 

(7) 通过 视角 (Perspectives) 插 件 ， 访 问 其 他 非 基 于 流 的 功能 。 


3.1.2 ”知识 流 界面 布局 


知识 流 界 面 可 分 为 以 下 五 个 部 分 。 

1) 视角 工具 栏 子 面板 

视角 (Perspectives) 工 具 栏 子 面板 位 于 知识 流 窗 口 的 项 部。 视角 是 管理 知识 流 用 户 界 面 
的 环境 ， 它 提供 主要 的 附加 功能 。 许 多 视角 都 可 以 对 实例 集 进行 操作 ， 通 过 将 
DataSource( 数 据 源 ) 组 件 放 到 布局 画布 上 ， 并 进行 配置 ， 然 后 右 击 该 组 件 ， 在 弹出 的 上 下 文 
菜单 中 选择 Send to perspective( 发 送 给 视角 ) 菜 单项 ， 可 将 实例 发 送 给 视角 。 知 识 流 界面 内 
建 了 几 个 视角 ， 可 通过 包 管 理 器 安装 其 他 的 视角 。 

单 击 位 于 知识 流 窗口 顶部 的 国 图 标 ， 会 弹出 如 图 3.2 所 示 Manage Perspectives( 视 角 管 
理 ) 对 话 框 。 


Ge 


3.2 ”Manage Perspectives( 视 角 管理 ) 对 话 框 


知识 流 自 带 三 个 视角 一 一 Attribute summary( 属 性 概要 )、SQL Viewer(SQL 查看 器 ) 和 
Scatter plot matrix( 散 点 图 矩阵)， 视 角 管理 窗口 上 部 有 四 个 按钮 ， 单 击 All 按钮 选中 全 部 ， 
单 击 None 按钮 全 部 取消 选中 ， 单 击 Invert 按钮 反选 ， 单 击 Pattern 按钮 使 用 Perl 正则 表达 
式 指定 要 选中 的 视角 ， 例 如 ，“.*matrix” 选 择 满足 属性 名 称 以 字符 串 matrix 结束 的 全 部 
视角 。 视 角 管理 窗口 下 部 有 两 个 按钮 ， 单 击 OK 按钮 确认 选中 的 操作 ， 单 击 Cancel 按钮 放 
弃 操 作 。 

如 果 单 击 All 按钮 ， 然 后 再 单 击 OK 按钮 。 会 发 现 知识 流 窗 口 的 顶部 多 出 了 三 个 标签 
页 ， 如 图 3.3 所 示 。 


国王 Di st et erie 


图 3.3 多 个 视角 标签 页 


2) 工具 栏 子 面板 
图 标 子 面板 位 于 视角 子 面板 的 下 方 ， 分 为 左 、 右 两 个 部 分 ， 如 图 3.4 所 示 。 
rn 沽 者 钻 目 欧 忆 动 其 | 蕊 图 息 态 加 | 二 总 
图 3.4 图 标 


左边 工具 栏 与 知识 流 运行 相关 ， 只 有 四 个 图 标 ， 分 别 为 : 选择 光标 、 运 行 本 数据 流 (并 
行 启动 全 部 开始 节点 )、 运 行 本 数据 流 (顺序 启动 开始 节点 )、 停 止 全 部 执行 。 

右边 工具 栏 和 编辑 相关 ， 有 15 个 图 标 ， 其 功能 分 别 是 : 选择 全 部 、 剪 切 所 选 、 复 制 
所 选 、 删 除 所 选 、 从 剪贴 板 粘贴 、 撤 消 、 在 布局 中 添加 注释 、 对 齐 到 网 格 、 新 建 布 局 、 保 
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存 布局 、 使 用 新 名 称 保 存 布局 、 加 载 布 局 、 加 载 布 局 模板 、 显 示 / 隐 藏 视 界 工具 栏 和 显示 


帮助 。 


3) 设计 子 面板 

设计 子 面板 位 于 窗口 左 部 ， 该 选项 板 中 列 示 了 全 部 可 用 的 Weka 组 件 ， 用 户 选择 后 ， 
可 放置 在 布局 画布 上 。 知 识 流 可 用 的 组 件 按 功能 分 为 九 个 大 类 ， 具 体 如 下 。 

第 一 类 : DataSources( 数 据 源 )， 全 部 可 用 的 Weka 加 载 器 。 

第 二 类 : DataSinks( 数 据 接收 器 )， 全 部 可 用 的 Weka 保存 器 。 

第 三 类 : Filters( 过 滤器 )， 全 部 可 用 的 Weka 过 滤器 。 

第 四 类 : Classifiers( 分 类 器 )， 全 部 可 用 的 Weka 分 类 器 。 

第 五 类 : Clusterers( 聚 类 器 )， 全 部 可 用 的 Weka 聚 类 器 。 

第 六 类 : Associations( 关 联 器 )， 全 部 可 用 的 Weka 关联 器 。 

第 七 类 : Evaluation( 评 估 器 )， 可 用 的 评估 器 如 下 。 


TrainingSetMaker 一 一 将 数据 集 转换 为 训练 集 。 

TestSetMaker 一 一 将 数据 集 转 换 为 测试 集 。 

CrossValidationFoldMaker 一 一 将 任意 数据 集 、 训 练 集 或 测试 集 分 割 为 若干 折 。 
TrainTestSplitMaker 一 一 将 任意 数据 集 、 训 练 集 或 测试 集 分 割 为 训练 集 或 测试 集 。 
ClassAssigner 一 一 对 于 任意 的 数据 集 、 训 练 集 或 测试 集 ， 指 定 一 列 作为 类 别 属性 。 
ClassValuePicker 一 一 选择 一 个 视 为 “ 正 例 ”类 别 标签 值 。 生 成 ROC 风格 的 曲线 
数据 时 ， 需 要 使 用 该 组 件 。 

ClassifierPerformanceEvaluator 一 一 评估 分 类 器 批量 训练 及 测试 的 性 能 。 
IncrementalClassifierEvaluator 一 一 评估 分 类 器 的 增 量 训练 的 性 能 。 
ClustererPerformanceEvaluator 一 一 评估 聚 类 器 的 批量 训练 及 测试 的 性 能 。 
PredictionAppender 一 一 追加 预测 测试 集 的 分 类 器 ， 对 于 离散 分 类 的 问题 ， 可 以 追 
加 预测 类 别 标签 或 概率 分 布 。 

SerializedModelSaver 一 一 将 分 类 器 保存 为 文件 ， 以 便 将 来 使 用 。 


第 八 类 : Visualization( 可 视 化 器 )， 可 用 的 可 视 化 器 如 下 。 


DataVisualizer 一 一 该 组 件 能 弹出 一 个 面板 ， 以 单个 较 大 的 2D 散 点 图 形式 可 视 化 
数据 。 

ScatterPlotMatrix 一 一 该 组 件 能 弹出 一 个 面板 ， 其 中 包含 一 个 由 小 的 散 点 图 组 成 的 
矩阵 ， 单 击 其 中 的 小 散 点 图 会 弹出 一 个 较 大 的 散 点 图 。 
AttributeSummarizer 一 一 该 组 件 能 弹出 一 个 面板 ， 其 中 包含 直方 图 的 矩阵 ， 每 个 
直方 图 对 应 输入 数据 中 的 一 个 属性 。 
ModelPerformmanceChart 一 一 该 组 件 能 弹出 一 个 面板 ， 能 可 视 化 阔 值 ( 即 ROC 风格 ) 曲 线 。 
TextViewer 一 一 显示 文本 数据 的 组 件 ， 可 显示 数据 集 、 分 类 性 能 统计 等 。 
GraphViewer 一 一 该 组 件 能 弹出 一 个 面板 ， 可 视 化 基于 树 的 模型 。 
StripChart 一 一 该 组 件 能 弹出 一 个 面板 ， 显 示 滚 动 的 数据 散 点 图 ， 用 于 查看 在 线 的 
增 量 分 类 器 的 性 能 。 

CostBenefitAnalysis 
闵 值 所 带 来 的 影响 。 


交互 式 和 图 形 化 组 件 ， 探 索 变更 成 本 /收益 以 及 调整 预测 


第 九 类 : Tools( 工 具 )， 可 用 的 工具 如 下 。 
e ”Appender 一 一 追加 多 个 传 入 数据 为 一 个 单一 数据 集 。 传 入 连接 可 以 是 全 部 实例 连 
接 ， 或 者 是 面向 所 有 批量 的 连接 ， 即 数据 集 、 训 练 集 和 测试 集 。 
e@ InstanceStreamToBatchMaker 一 一 将 实例 流转 换 为 一 个 批量 数据 集 。 与 Reservoir 
采样 滤波 器 一 并 使 用 时 很 有 用 。 
e ”SubstringLabeler 一 一 匹配 String 属性 的 子囊 ， 可 以 使 用 文本 匹配 ， 或 者 正则 表 
达 式 匹配 。 
e ”SubstringReplacer 一 一 替换 String 属性 值 中 的 子囊， 可 以 使 用 文本 匹配 蔡 换 ， 或 者 
使 用 正则 表达 式 匹 配 。 
e ”Sorter 一 一 根据 用 户 指 定 的 属性 值 ， 以 升序 或 降序 对 传 入 的 实例 进行 排序 。 
4) 布局 画布 子 面板 
这 是 数据 流 的 设计 面板 ， 全 部 设计 工作 都 在 其 上 完成 。 
5) 状态 日 志 子 面板 
状态 日 志 子 面板 位 于 窗口 的 右 下 部 ， 以 标签 页 的 形式 展现 。 状 态 标 签 页 能 显示 让 用 户 
了 解 现在 进行 到 哪 一 步 的 状态 信息 。 日 志 标签 页 显示 为 一 个 多 行文 本 框 ， 显 示 在 此 次 运行 
期 间 内 Weka 所 进行 的 全 部 活动 以 及 每 项 活动 的 时 间 戳 。 


3.2 ”知识 流 组 件 


知识 流 的 组 件 很 丰富 ， 包 括 Weka 的 分 类 器 、 过 滤器 、 聚 类 器 、 加 载 器 和 保存 器 ， 以 
及 一 些 附加 工具 。 下 面 按照 Weka 知识 流 设 计 面 板 里 组 件 树 的 功能 分 类 ， 依 次 说 明 每 个 组 
件 的 功能 。 

由 于 过 滤器 、 分 类 器 、 聚 类 器 、 关 联 器 已 经 在 第 2 章 介 绍 过 ， 这 里 不 再 重复 进行 
介绍 。 


3.2.1 数据 源 


数据 源 包 括 全 部 可 用 的 Weka 加 载 器 ， 一 共有 11 个 组 件 。 

1) ArffLoader(ARFF 文件 加 载 器 ) 

读 取 ARFF( 属 性 关系 文件 格式 ) 格 式 的 源 数据 文件 。 

配置 界面 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 ARFF 数据 文件 。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 

False。 

2) C45Loader(C45 文件 加 载 器 ) 

读 取 C45 格式 的 文件 。 可 以 仅 指 定 文件 名 ， 支 持 的 文件 扩展 名 有 “ names” 或 
“.data”， 假 设 路 径 下 存在 两 种 扩展 名 的 指定 文件 ， 分 别 包含 数据 集 的 属性 名 称 和 数据 。 

配置 界面 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 C45 数据 文件 。 
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useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 


False。 


3) CSVLoader(CSV 文件 加 载 器 ) 

读 取 以 逗号 (默认 ) 分 隔 格式 的 源 数据 文件 。 也 可 以 将 列 分 隔 符 由 逗号 改 为 其 他 符号 ， 
如 制 表 符 或 其 他 字符 。 假 设 文件 中 的 第 一 行 确定 了 属性 的 数量 和 名 称 。 

配置 界面 说 明 如 下 。 


Filename( 文 件 名 ): 要 加 载 的 CSV 数据 文件 。 

dateAttributes( 日 期 属性 ): 属性 的 范围 强制 为 字符 串 类 型 ， 例 如 : “first-last”、 
“1,4,7-14, 50-last”。 

dateFormat( 日 期 格式 ): 解析 日 期 值 所 使 用 的 格式 。 

enclosureCharacters( 界 线 字符 ): 用 作 字 符 串 界线 的 字符 。 例 如 : “"”、“'”。 
fieldSeparator( 字 段 分 隔 符 ): 用 作 列 /字段 的 分 隔 符 ， 使 用 “\t” 表 示 制 表 符 。 
missingValue( 缺 失 值 ): 缺失 值 的 占 位 符 ， 默 认 是 “?”。 
noHeaderRowPresent( 无 标题 行 ); 数据 的 第 一 行 不 是 包含 属性 名 称 的 标题 行 。 
nominalAttributes( 标 称 属性 ): 属性 的 范围 强制 为 标 称 类 型 ， 例 如 : “first-last”， 
“1,4,7-14,50-last”。 

stringAttributes( 字 符 串 属性 ): 属性 的 范围 强制 为 字符 串 类 型 ， 例 如 : “first- 
last”，“1,4.7-14,50-last”。 

useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 


False。 


4) DatabaseLoader( 数 据 库 加 载 器 ) 

从 数据 库 中 读 取 实 例 ， 能 以 批量 或 增 量 模式 读 取 数 据 库 。 

增 量 模式 支持 MySQL 和 HSQLDB。 

对 于 其 他 所 有 的 DBMS， 使 用 伪 增 量 模式 。 在 伪 增 量 模式 中 ， 一 次 将 所 有 实例 读 入 到 
主 存储 器 中 ， 然 后 增 量 提供 给 用 户 。 使 用 增 量 加 载 ， 数 据 库 表 中 的 行 必须 经 过 唯一 排序 ， 
是 因为 通过 延伸 用 户 查询 语句 的 LIMIT 子 句 ， 每 次 只 取出 一 个 单行 。 如 果 数 据 库 不 支持 该 
扩展 ， 将 使 用 伪 增 量 模式 载 入 实例 。 为 了 确保 每 行 仅 读 取 一 次 ， 数 据 库 表 行 必须 唯一 排 
序 。 因 此 ， 主 键 是 必需 的 。 


使 用 


批量 模式 ， 不 会 创建 字符 串 属性 。 


配置 界面 说 明 如 下 。 


Database URL( 数 据 库 URL): 数据 库 的 URL。 
Username( 用 户 名 ): 数据 库 用 户 名 。 

Password( 密 码 ): 数据 库 密码 。 

Query( 查 询 ): 加 载 实例 的 查询 语句 。 查 询 语句 的 格式 应 为 : 


SELECT <column-list>|* FROM <table> [WHERE <conditions>] 


Key columns( 主 键 列 ): 对 于 增 量 加 载 ， 必 须 详细 说 明 唯一 的 标识 ID。 
如 果 查 询 包 括 表 的 全 部 列 ( 即 SELECT *)， 有 的 JDBC 驱动 程序 可 以 自动 检测 到 主 
键 列 。 如 果 无 法 检测 到 主键 ， 可 以 在 这 里 使 用 逗号 分 隔 的 列表 指定 的 主键 列 。 


e DB config props( 数 据 库 配 置 属 性 ): 自 定 义 属性 ， 用 户 可 以 用 它 来 蔡 代 默 认 值 。 

5) JSONLoader(JSON 文件 加 载 器 ) 

读 取 JSON 格式 的 源 数据 文件 。 

如 果 文 件 扩展 名 为 “.json.gz”， 会 自动 解压 缩 数据 。 

配置 界面 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 JSON 数据 文件 。 

。 ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

6) LibSVMLoader(LibSVM 文件 加 载 器 ) 

读 取 LibSVM 格式 的 源 数据 文件 。 

配置 界面 说 明 如 下 。 

。 Filename( 文 件 名 ): 要 加 载 的 LibSVM 数据 文件 。 

@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

7) MatlabLoader(Matlab 文件 加 载 器 ) 

读 取 Matlab 源 数据 文件 ， 文 件 中 包含 一 个 单个 ASCII 格式 的 矩阵 。 

配置 界面 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 Matlab 数据 文件 。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

8) SerializedInstancesLoader( 实 例 序列 化 文件 加 载 器 ) 

读 取 包含 序列 化 实例 的 源 数据 文件 。 

配置 界面 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 序列 化 数据 文件 。 

@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

9) SVMLightLoader(SVMLight 文件 加 载 器 ) 

读 取 SVMLight 格式 的 源 数 据 文件 。 

配置 界面 说 明 如 下 。 

e Filename( 文 件 名 ): 要 加 载 的 SVM light 数据 文件 。 

e ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

10) TextDirectoryLoader( 文 本 目录 加 载 器 ) 

加 载 目录 中 的 所 有 文本 文件 ， 并 使 用 子 目 录 名 称 作为 分 类 标签 。 文 本 文件 的 内 容 将 存 


储 为 字符 串 属 性 ， 也 可 以 存储 文件 名 。 


配置 界面 说 明 如 下 。 

。 ”charSet( 字 符 集 ): 用 于 读 取 文 本 文件 的 字符 集 (如 UTF-8)， 要 使 用 默认 的 字符 集 ， 
请 将 本 参数 设 为 空白 。 

。 Debug( 调 试 ): 是 否 将 额外 调试 信息 打印 到 控制 台 。 
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e ”Directory( 目 录 ): 要 加 载 的 目标 目录 。 

e ”outputFilename( 输 出 文件 名 ): 是 否 将 文件 名 存储 为 额外 的 属性 。 

11) XRFFLoader(XRFF 文件 加 载 器 ) 

读 取 XML 版 本 的 ARFF 格式 源 数据 文件 。 

如 果 文 件 扩展 名 为 “.xrffgz”， 会 自动 解压 缩 数据 。 

配置 界面 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 XML 格式 的 ARFF 数据 文件 。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 


False。 


3.2.2 ”数据 接收 器 


数据 接收 器 包括 全 部 可 用 的 Weka 保存 器 ， 一 共有 12 个 组 件 。 

多 数 文件 型 的 数据 接收 器 都 有 以 下 几 个 通用 选项 。 

e ”Prefix for file name( 文 件 名 前 级 ): 仅 包 括 文件 名 ， 不 包括 扩展 名 。 

e@ Relation name for filename( 用 关系 名 称 作 为 文件 名 ): 如 果 该 复 选 框 选中 ， 则 使 用 
关系 名 称 作 为 文件 名 。 

e ”Directory( 目 录 ): 保存 文件 的 目录 。 

e@ ”Use relative file path( 使 用 相对 文件 路 径 ): 如 果 该 复 选 框 选中 ， 使 用 相对 文件 路 
径 ， 而 不 是 绝对 文件 路 径 。 

1) ArffSaver(ARFF 文件 保存 器 ) 

写 入 目标 是 ARFF 格式 文件 ， 数 据 可 以 用 gzip 压缩 以 节省 空间 。 

配置 界面 说 明 如 下 。 

e ”compressOutput( 压 缩 输出 )， 是 否 对 输出 数据 压缩 选项 。 

e “maxDecimalPlaces( 最 大 十 进 制 位 数 ): 打印 小 数 点 后 数值 的 最 大 位 数 。 

。 ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

2) C45Saver(C45 文件 保存 器 ) 

写 入 的 目标 文件 格式 可 用 于 C4.5 算法 ， 因 此 输出 一 个 名 称 文件 和 一 个 数据 文件 。 

配置 界面 说 明 如 下 。 

useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝对 路 径 ， 默 认为 False。 

3) CSVSaver(CSYV 文件 保存 器 ) 

写 入 的 目标 文件 是 CSV( 逗 号 分 隔 值 ) 格 式 。 可 以 选择 列 分 隔 符 (默认 为 “,.”)， 也 可 以 


选择 表示 缺失 值 的 符号 (默认 是 “?”)。 


配置 界面 说 明 如 下 。 

fieldSeparator( 字 段 分 隔 符 ): 用 作 列 /字段 分 隔 符 的 字符 ， 使 用 “\t” 表 示 制 表 符 。 
maxDecimalPlaces( 最 大 十 进 制 位 数 )， 打印 小 数 点 后 数值 的 最 大 位 数 。 
missingValue( 缺 失 值 ): 缺失 值 的 占 位 符 ， 默 认 是 “?”。 
useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 


4) DatabaseSaver( 数 据 库 保存 器 ) 

写 入 到 数据 库 中 。 已 经 测试 过 MySQL、InstantDB 和 HSQLDB 数据 库 。 

配置 界面 说 明 如 下 。 

Database URIL (数据库 URL): 数据 库 的 URL。 

Usemame( 用 户 名 ): 数据 库 用 户 名 。 

了 Password( 密 码 ): 数据 库 密码 。 

Table Name( 表 名 ): 设置 数据 库 表 名 称 。 

Use relation name( 使 用 关系 名 ): 如 果 设 置 为 tue， 则 关联 名 称 将 用 作 数 据 库 表 的 

名 称 。 和 否则 ， 用 户 必 须 提供 一 个 表 名 。 

Truncate Table( 截 断 表 ): 如 果 表 已 经 存在 ， 则 截断 ( 即 删除 并 重建 ) 表 。 

Automatic primary key( 自 动 生成 主键 ): 如 果 设 置 为 tue， 将 自动 生成 主键 列 (包含 

INTEGER 的 行 号 )。 主 键 名 称 用 DatabaseUtils (idColumm) 读 出 ， 该 主键 可 用 于 增 

量 加 载 (需要 唯一 主键 )。 该 主键 不 会 加 载 为 一 个 属性 。 

e DB config props( 数 据 库 配置 属性 ): 自 定义 属性 ， 用 户 可 以 用 它 来 替代 默认 值 。 

5) JSONSaver(JSON 文件 保存 器 ) 

写 入 的 目标 文件 是 JSON 格式 。 数 据 可 以 用 gzip 压缩 ， 以 节省 空间 。 

配置 界面 说 明 如 下 。 

e@ classIndex( 分 类 索引 ): 设置 分 类 索引 ，“first” 和 “last” 都 是 有 效 值 。 

e ”compressOutput( 压 缩 输 出 ):， 是 否 对 输出 数据 压缩 选项 。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

6) LibSVMSaver(LibSVM 文件 保存 器 ) 

写 入 的 目标 文件 是 LibSVM 格式 。 

配置 界面 说 明 如 下 。 

@ classIndex( 分 类 索引 ): 设置 分 类 索引 ，“first” 和 “last” 都 是 有 效 值 。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

7) MatlabSaver(Matlab 文件 保存 器 ) 

写 入 目标 是 Matlab 的 ASCII 文件 ， 使 用 单 精度 或 双 精 度 格 式 。 

配置 界面 说 明 如 下 。 

e@ useDouble( 使 用 双 精 度 ): 设 定 是 否 使 用 双 精 度 ， 而 非 单 精度 。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝对 路 径 ， 默 认为 
False。 

e@ ”useTabs( 使 用 制 表 符 ): 设置 是 否 使 用 制 表 符 作为 分 隔 符 ， 而 非 空格 。 

8) SerializedInstancesSaver( 序 列 化 实例 保存 器 ) 

序列 化 实例 到 输出 文件 ， 文 件 扩展 名 为 “bsi”。 

配置 界面 说 明 如 下 。 

useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 False。 


副 酒 Mol4 s6pslwou 才 8 洪 伸 让 本 


Y 


© 


数据 挖掘 与 机 器 学 习 
一 一 WEKA 应 用 技术 与 过 三 


9) SVMLightSaver(SVMLight 文件 保存 器 ) 

写 入 的 目标 文件 是 SVMLight 格式 。 

配置 界面 说 明 如 下 。 

e classIndex( 分 类 索引 ): 设置 分 类 索引 ，“first” 和 “last” 都 是 有 效 值 。 

。 ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

10) XRFFSaver(XRFF 文件 保存 器 ) 

写 入 的 目标 文件 是 ARFF 格式 的 XML 版 本 。 数 据 可 以 用 gzip 压缩 ， 以 节省 空间 。 

配置 界面 说 明 如 下 。 

e@ ”classIndex( 分 类 索引 ): 设置 分 类 索引 ，“first” 和 “last” 都 是 有 效 值 。 

e ”compressOutput( 压 缩 输出 )， 是 否 对 输出 数据 压缩 选项 。 

e@ useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 ， 默 认为 
False。 

11) SerializedModelSaver( 序 列 化 模型 保存 器 ) 

将 训练 过 的 模型 保存 为 序列 化 对 象 文件 。 

配置 界面 说 明 如 下 。 

File format( 文 件 格 式 ):， 目前 仅 支持 二 进 制 序列 化 模型 文件 。 

12) TextSaver( 文 本 文件 保存 器 ) 

将 静态 文本 保存 或 添加 到 文件 。 

配置 界面 说 明 如 下 。 

e@ ”Filename( 文 件 名 ): 文件 名 称 。 

。 ”Append to file( 追 加 到 文件 ): 如 果 该 复 选 框 选中 ， 则 追加 到 文件 ， 而 不 是 新 建文 件 。 


3.2.3 评估 器 


评估 器 一 共有 10 个 组 件 ， 有 5 个 组 件 不 需要 额外 配置 。 

1) TrainingSetMaker( 训 练 集 产 生 器 ) 

接受 数据 集 输 入 ， 并 产生 训练 集 。 

配置 界面 说 明 如 下 : 

无 须 进 行 额外 配置 。 

2) TestSetMaker( 测 试 集 产生 器 ) 

接受 数据 集 输入 ， 并 产生 测试 集 。 

配置 界面 说 明 如 下 : 

无 须 进 行 额 外 配置 。 

3) CrossValidationFoldMaker( 交 叉 验 证 折 产 生 器 ) 

将 传 入 的 数据 集 拆 分 为 交叉 验证 的 折 。 磊 折 中 的 每 个 都 产生 单独 的 训练 集 和 测试 集 。 

配置 界面 说 明 如 下 。 

e ”Folds( 折 数 ): 交叉 验证 的 折 数 。 

@ ”preserveOrder( 保 留 顺序 ): 设置 交叉 验证 是 否 要 保留 输入 实例 的 顺序 。 在 这 种 情 
况 下 ， 不 能 使 用 随机 或 分 层 操作 。 


@ ”seed( 种 子 ): 随机 化 种 子 。 

4) TrainTestSplitMaker( 训 练 集 测 试 集 拆 分 产生 器 ) 

将 传 入 的 数据 拆 分 为 单独 的 训练 集 和 测试 集 。 

配置 界面 说 明 如 下 。 

e@ trainPercent( 训 练 百 分 比 ): 数据 划分 到 训练 集 的 百分比 。 

e ”seed( 种 子 ): 随机 化 种 子 。 

5) ClassAssigner( 分 类 分 配器 ) 

指定 输入 数据 中 的 哪个 列 作为 分 类 列 。 

配置 界面 说 明 如 下 。 

classColumn( 类 别 列 ): 指定 包含 类 别 属 性 的 列 索引 。 

6) ClassValuePicker( 类 别 值 选取 器 ) 

指定 认为 是 positive( 正 例 ) 的 类 值 类 别 值 ， 用 于 ROC 风格 曲线 。 

配置 界面 说 明 如 下 : 

无 须 进行 额外 配置 。 

7) ClassifierPerformanceEvaluator( 分 类 器 性 能 评估 器 ) 

评估 批量 训练 分 类 器 的 性 能 。 

配置 界面 说 明 如 下 。 

e@ ”errorPlotPointSizeProportionalToMargin( 正 比 于 边 距 的 误差 散 点 大 小 ): 设置 正比 于 
预测 分 类 错误 边 距 的 点 大 小 。 

e@ executionSlots( 执 行 槽 );， 设置 以 并 行 方式 运行 的 评估 任务 。 

eevaluationMetricsToOutput( 输 出 的 评价 指标 ): 输出 以 逗号 分 隔 的 评价 指标 列表 。 

8) IncrementalClassifierEvaluator( 增 量 分 类 器 评估 器 ) 

评估 增 量 训练 分 类 器 的 性 能 。 

配置 界面 说 明 如 下 。 

e ”chartingEvalWindowSize( 图 表 评 估 窗 口 大 小 ): 仅 用 于 绘制 图 表 ， 指 定 计算 性 能 统 
计 的 滑动 窗口 大 小 。 该 值 小 于 等 于 零 ， 表 示 对 整个 流 进行 评估 。 

e@ ”outputPerClassInfoRetrievalStats( 输 出 每 个 分 类 信息 检索 的 统计 信息 ): 输出 每 个 分 
类 信息 检索 的 统计 信息 。 如 果 设 置 为 tue， 预 测 得 以 保存 ， 这 样 可 以 计算 诸如 
AUC 的 统计 信息 。 注 意 : 这 样 会 消耗 一 些 内 存 。 

e statusFrequency( 状 态 栏 频 度 ): 状态 栏 报告 进度 的 频 度 。 

9) ClustererPerformanceEvaluator( 聚 类 器 性 能 评估 器 ) 

评估 批量 训练 聚 类 器 的 性 能 。 

配置 界面 说 明 如 下 。 

无 须 进 行 额 外 配置 。 

10) PredictionAppender( 预 测 追 加 器 ) 

接受 批量 或 增 量 分 类 器 的 事件 ， 并 产生 一 个 新 数据 集 ， 追 加 分 类 器 预测 。 

配置 界面 说 明 如 下 。 

appendPredictedProbabilities( 追 加 预测 概率 ): 追加 概率 ， 而 不 是 预测 的 离散 类 别 标签 。 
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3.2.4 可 视 化 器 


可 视 化 器 一 共有 9 个 组 件 。 
1) DataVisualizer( 数 据 可 视 化 器 ) 
使 用 二 维 散 点 图 ， 对 输入 数据 集 / 训 练 集 / 测 试 集 进 行 可 视 化 。 本 对 话 框 允许 用 户 配 置 


离 屏 演 染 选项 。 屏 外 图 像 通 过 image 连接 传递 。 


配置 界面 说 明 如 下 。 

@ ”Renderer( 演 染 器 ): 只 可 选 Weka Chart Renderer(Weka 图 表演 染 器 )。 
X-axis attribute(X 轴 属 性 ): 对 轴 属 性 。 

Y-axis attribute( 了 轴 属 性 ): 了 轴 属 性 。 

Chart width (pixels)( 图 表 宽 度 像素 ): 图 表 宽度 ， 以 像素 为 单位 。 
Chart height(pixels)( 图 表 高 度 像素 ): 图 表 高 度 ， 以 像素 为 单位 。 
Renderer options( 泻 染 器 选项 ): 其 他 泻 染 器 选项 。 

2) ScatterPlotMatrix( 散 点 图 窍 阵 ) 

weka.gui.visualize.MatrixPanel 的 封装 类 ， 显 示 散 点 图 矩阵 。 

配置 界面 说 明 如 下 : 

无 须 进行 额外 配置 。 

3) AttributeSummarizer( 属 性 总 结 器 ) 

输入 数据 集 、 训 练 集 和 测试 集 的 图 总 结 条 形 图 。 该 对 话 框 允许 用 户 配置 离 屏 演 染 选 


。 离 屏 图 像 通过 image 连接 传递 。 


配置 界面 说 明 如 下 。 

e ”Renderer( 演 染 器 ): 只 可 选 Weka Chart Renderer(Weka 图 表演 染 器 )。 

义 -axis attribute(X 轴 属 性 ): 对 轴 属性 。 

Y-axis attribute( 了 轴 属 性 ): 了 轴 属 性 。 

Chart width (pixels)( 图 表 宽 度 像 素 )， 图 表 宽 度 ， 以 像素 为 单位 。 

Chart height(pixels)( 图 表 高 度 像素 ): 图 表 高 度 ， 以 像素 为 单位 。 

Renderer options( 泻 染 器 选项 ): 其 他 泻 染 器 选项 。 

4) ModelPerformanceChart( 模 型 性 能 图 ) 

可 视 化 模型 性 能 图 ， 例 如 ROC。 该 对 话 框 中 允许 用 户 配置 离 屏 演 染 选项 。 离 屏 图 像 通 


过 image 连接 传递 。 


配置 界面 说 明 如 下 。 

Renderer( 演 染 器 ): 只 可 选 Weka Chart Renderer(Weka 图 表演 染 器 )。 

X-axis attribute(X 轴 属 性 ): 对 轴 属 性 。 

Y-axis attribute( 了 轴 属 性 ): 了 轴 属 性 。 

Chart width (pixels)( 图 表 宽 度 像素 ): 图 表 宽度 ， 以 像素 为 单位 。 

Chart height(pixels)( 图 表 高 度 像素 ): 图 表 高 度 ， 以 像素 为 单位 。 

Renderer options( 泻 染 器 选项 ): 其 他 泻 染 器 选项 。 

5) CostBenefitAnalysis( 成 本 效益 分 析 ) 

混 涌 矩阵 中 处 理 单个 单元 格 的 内 部 类 。 显 示 在 总 值 中 的 百分比 值 以 及 描绘 百分比 的 


图 形 。 

配置 界面 说 明 如 下 : 

无 须 进行 额外 配置 。 

6) TextViewer( 文 本 查看 器 ) 

收集 和 显示 文本 块 的 Bean。 

配置 界面 说 明 如 下 : 

无 须 进行 额外 配置 。 

7) GraphViewer( 图 形 查 看 器 ) 

weka.gui.treevisualize.TreeVisualizer 的 封装 类 。 图 形 方式 可 视 化 分 类 器 或 聚 类 器 产生 的 
树 或 图 。 

配置 界面 说 明 如 下 : 

无 须 进行 额外 配置 。 

8) StripChart( 带 状 图 ) 

使 用 滚动 图 ， 可 视 化 增 量 分 类 器 的 性 能 。 

配置 界面 说 明 如 下 。 

e@ refreshFreq( 刷 新 频率 ): 每 次 绘制 第 x 个 数据 点 的 频率 。 

e@ ”xLabelFreq(x 标签 频率 )， 显示 碟 轴 标签 的 频率 。 

9) ImageSaver( 图 像 保 存 器 ) 

将 诸如 ModelPerformanceChart 组 件 产生 的 静态 图 像 保 存 至 文件 。 

配置 界面 说 明 如 下 。 

Filename( 文 件 名 ): 图 像 文件 名 称 。 
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3.2.5 ”其 他 工具 
其 他 工具 一 共 6 个 组 件 ， 前 3 个 在 Tools 条 目下 ， 后 3 个 在 Flow 条 目下 。 
1) Sorter( 排 序 器 ) 


根据 用 户 指定 的 排序 属性 值 ， 将 输入 实例 进行 升序 或 降序 排序 。 实 例 可 以 根据 顺序 定 
义 的 多 个 属性 进行 排序 。 处 理 数据 量 大 而 不 能 一 次 加 载 到 主 内 存 的 数据 集 ， 可 以 通过 实例 
连接 并 指定 内 存 缓冲 区 大 小 的 方式 实现 。 排 序 器 实现 合并 排序 ， 即 当 缓冲 区 满 时 ， 将 内 存 
缓冲 区 中 排序 好 的 数据 写 入 文件 中 ， 然 后 从 磁盘 文件 中 交错 获取 实例 。 

配置 界面 说 明 如 下 。 

e ”Sort on attribute( 排 序 属性 ): 确定 按 哪 个 属性 进行 排序 。 

@ ”Sort descending( 降 序 排 序 ): yes 按 降序 排序 ，no 按 升 序 排序 。 

e Size of in-mem streaming buffer( 流 缓冲 区 的 内 存 大 小 ): 流 缓冲 区 在 内 存 中 的 大 

小 ， 默 认为 10000 字 节 。 

@ ”Directory for temp files( 临 时 文件 目录 ): 临时 文件 目录 。 

2) SubstringLabeler( 子 串 标 签 器 ) 

在 字符 串 属性 中 匹配 子囊 ， 可 以 使 用 文字 或 正则 表达 式 进行 匹配 。 设 置 一 个 新 属性 的 
值 以 反映 匹配 的 状态 。 新 属性 可 以 是 二 元 属性 ， 其 值 表示 匹配 或 不 匹配 ， 也 可 以 是 多 值 的 
标 称 属性 ， 其 标签 必须 关联 某 个 不 同 的 匹配 规则 。 在 标签 匹配 的 情形 下 ， 用 户 可 以 选择 将 
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不 匹配 的 实例 的 新 属性 设置 为 有 缺失 值 然后 输出 ， 还 是 根本 不 输出 (消耗 不 匹配 的 实例 )。 
配置 界面 说 明 如 下 。 
e ”Apply to attributes( 应 用 到 属性 ): 指定 应 用 的 属性 名 称 。 
Match( 匹 配 ): 匹配 的 表达 式 。 
Label( 标 签 ): 标签 。 
Name of label attribute( 标 签 属性 的 名 称 ): 标签 属性 的 名 称 。 
Match using a regular expression( 使 用 正则 表达 式 匹 配 ): 是 否 使 用 正则 表达 式 匹 配 
的 选择 框 。 
@ ”Ignore case when matching( 匹 配 时 忽略 大 小 写 ): 是 否 匹 配 时 忽略 大 小 写 的 选择 框 。 
e “Make binary label attribute nominal( 将 二 元 标签 作为 标 称 属性 ): 是 否 将 二 元 标签 作 
为 标 称 属性 的 选择 框 。 
e ”Consume non-matching instance( 消 耗 不 匹配 的 实例 ): 是 否 消耗 不 匹配 实例 的 选择 框 。 
3) SubstringReplacer( 子 串 蔡 换 器 ) 
替换 字符 串 属性 值 的 子囊， 可 以 使 用 文字 匹配 并 替换 或 正则 表达 式 匹配 。 施 加 匹配 和 
替换 规则 的 属性 可 以 通过 范围 字符 串 ( 如 “1 一 $,6,last”) 进 行 选择 ， 或 者 通过 喜 号 分 隔 的 属 
性 名 称 列表 (/ first 和 /last 可 以 用 来 分 别 表示 第 一 个 和 最 后 一 个 属性 ) 进 行 选 择 。 
配置 界面 说 明 如 下 。 
e ”Apply to attributes( 应 用 到 属性 )。 
e ”Match( 匹 配 ):， 匹配 的 表达 式 。 
e ”Label( 标 签 ); 标签 。 
。 ”Match using a regular expression( 使 用 正则 表达 式 匹 配 ): 是 否 使 用 正则 表达 式 匹配 


的 选择 框 。 
。 Ignore case when matching( 匹 配 时 忽略 大 小 写 ): 是 否 匹 配 时 忽略 大 小 写 的 选择 框 。 
4) Appender( 追 加 器 ) 


将 多 个 输入 数据 连接 追加 成 为 一 个 单个 数据 集 的 Bean。 输 入 连接 可 以 是 所 有 的 增 量 实 
例 连接 ， 也 可 以 是 所 有 的 批量 ( 即 数据 集 、 训 练 集 和 测试 集 ) 连 接 。 实 例 连接 和 批量 连接 不 
能 混用 ， 合 并 的 输出 由 所 有 输入 属性 的 组 合 创建 。 缺 失 值 用 于 填充 某 个 特定 的 输入 数据 集 
中 不 存在 的 列 。 如 果 所 有 输入 连接 都 是 实例 连接 ， 那 么 输出 连接 必须 是 一 个 实例 连接 ， 反 
之 亦 然 。 

配置 界面 说 明 如 下 。 

无 须 进行 额外 配置 。 

5) FlowByExpression( 表 达 式 流 ) 

根据 逻辑 表达 式 的 估 值 拆 分 输入 的 实例 (或 实例 流 )。 表 达 式 可 以 测试 一 个 或 多 个 输入 
属性 的 值 ， 测 试 可 以 使 用 常量 ， 或 一 个 属性 与 另 一 个 属性 的 值 进行 比较 。 不 等 式 以 及 诸如 
contains( 包 含 )、starts-with( 以 …… )、ends-with( 以 …… 结束 )， 和 正则 表达 式 等 字符 串 操作 
都 可 以 用 作 操作 符 。 可 将 为 True 的 实例 发 送 到 一 个 下 游 工 序 ， 为 False 的 实例 发 送 到 另 一 
外 下 序 : 

配置 界面 说 明 如 下 。 

@ ”Send true instances to node( 发 送 为 真 的 实例 到 节点 ): 设置 为 true 的 实例 发 送 到 连 


接 节点 的 名 称 。 
e@ ”Send false instances to node( 发 送 为 假 的 实例 到 节点 ): 设置 为 false 的 实例 发 送 到 连 
接 节点 的 名 称 。 


Expression( 表 达 式 ): 设置 表达 式 (使 用 内 部 格式 )。 

Attribute( 属 性 ): 指定 属性 。 

Operator( 操 作 符 ): 操作 符 。 

Constant or attribute( 常 量 或 属性 ): 常量 或 属性 。 

RHS is attribute(RHS 为 属性 ): 是 否 RHS( 右 方 ) 操 作 数 为 属性 的 选择 框 。 
6) InstanceStreamToBatchMaker( 流 转 批 实例 制造 器 ) 

将 实例 流转 换 成 批量 数据 集 的 Bean， 和 水 库 采 样 过 滤器 一 同 使 用 时 很 有 用 。 
配置 界面 说 明 如 下 。 

无 须 进行 额外 配置 。 


3.3 ”使 用 知识 流 组 件 


用 户 通过 配置 单个 组 件 ， 并 将 各 个 组 件 连接 起 来 以 构建 知识 流 。 图 3.5 展示 了 右 击 不 
同类 型 组 件 弹 出 的 典型 上 下 文 菜单 。 


Delete Edit 


Setname Delete 
Configure... Setname 
Delete 、 Configure... 
a Setname 本 onnection 
Configure... ee text 
Delete ee 
Setname configuration atchClusterer 
Configure... E estSe tt fi configuration 
onnections Delete configuration | tion 
instance Setname nstance Save model Save model 
dataSet Configure... ataSet Load model Load model 
DataSources DataSinks Filters Classifiers Clusterers 
Edit 
Delete lt Edit 
Setname 和 Es 
Configure... Setname Edit Delete 
a CD Delete Setname 
fen Tt ot Setname Configure... 
oh i Configure... Connect 
h tionRules sta eyons 
Coniguralon taSet Show chart dataSet 
Associations Evaluation Visualization Tools Flow 


3.5 ”知识 流 组 件 上 下 文 菜单 
按照 功能 ， 将 菜单 分 为 如 下 三 类 : Edit( 编 辑 )、Connections( 连 接 ) 和 Actions( 动 作 )。 
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Edit 操作 类 菜单 项 能 对 组 件 进行 简单 的 编辑 操作 ， 其 中 ，Delete( 删 除 ) 菜 单项 删除 组 件 ; 
Set name( 设 置 名 称 ) 菜 单项 为 组 件 取 名 ; Configure 菜单 项 弹出 一 个 配置 窗口 ， 以 配置 组 件 
的 内 部 参数 。Connections 操作 类 菜单 项 用 于 连接 组 件 ， 包 括 的 菜单 项 有 : instance( 实 例 )、 
dataSet( 数 据 集 )、trainingSet( 训 练 集 )、testSet( 测 试 集 )、text( 文 本 )、graph( 图 )、 
batchClassifier( 批 量 分 类 器 )、incrementalClassifier( 增 量 分 类 器 ) 等 。 尽 管 这 些 连接 操作 的 类 
别 较 多 ， 但 操作 都 是 一 样 的 ， 先 选择 源 组 件 的 连接 类 型 ， 然 后 单 击 目 标 对 象 ， 将 源 组 件 和 
目标 组 件 连接 在 一 起 。Actions 操作 类 菜单 项 仅 用 于 特定 类 型 的 组 件 ， 例 如 ， 从 数据 源 启动 
加 载 数 据 ， 或 者 打开 一 个 窗口 以 显示 可 视 化 结果 。 

从 数据 源 出 来 的 连接 有 两 种 类 型 : dataSet( 数 据 集 ) 连 接 和 instance( 实 例 ) 连 接 。 前 者 为 
批量 操作 ， 如 J48 分 类 器 ， 后 者 为 流 操作 ， 如 NaiveBayesUpdateable 组 件 。 一 个 数据 源 组 
件 不 能 同时 提供 这 两 种 类 型 的 连接 ， 一 旦 选中 某 种 类 型 ， 将 禁用 另 一 种 类 型 。 当 某 个 
dataSet 组 件 连接 到 批量 分 类 器 时 ， 分 类 器 需要 知道 该 dataSet 组 件 提 供 的 究竟 是 训练 集 数 
据 还 是 测试 集 数据 。 要 做 到 这 一 点 ， 必 须 使 用 评估 条 目下 的 TestSetMaker 组 件 或 
TrainingSetMaker 组 件 ， 这 两 个 组 件 分 别 将 数据 源 转化 为 测试 集 或 训练 集 。 

相对 而 言 ， 增 量 分 类 器 的 instance 连接 比较 直截了当 ， 对 于 增 量 分 类 器 来 说 ， 训 练 集 
和 测试 集 之 间 没 有 什么 区 别 ， 因 为 实例 流 增 量 更 新 分 类 器 。 在 这 种 情况 下 ， 对 每 个 输入 实 
例 进 行 预测 ， 并 纳入 测试 结果 ， 然 后 分 类 器 在 该 实例 上 进行 训练 。 但 批量 分 类 器 则 不 同 ， 
如 果 将 instance 连接 与 批量 分 类 器 相连 ，instance 连接 的 输出 将 会 作为 测试 实例 ， 因 为 批量 
分 类 器 的 训练 不 能 增 量 进行 ， 而 测试 却 总 是 增 量 的 。 相 反 地 ， 在 批量 模式 下 使 用 dataSet 
连接 来 测试 增 量 分 类 器 却 是 可 行 的 。 

当 组 件 接收 来 自 数据 源 的 输入 ， 就 启用 过 滤器 组 件 的 连接 ， 于 是 才能 使 用 后 续 的 
dataSet 或 instance 连接 。Instance 连接 不 能 使 用 不 能 增 量 处 理 数据 (例如 Discretize) 的 有 
监督 过 滤器 或 无 监督 过 滤器 。 为 了 从 过 滤器 获取 测试 集 或 训练 集 ， 必 须 使 用 适当 的 过 滤器 
组 件 。 

分 类 器 菜单 有 两 种 类 型 的 连接 。 第 一 种 连接 类 型 ， 即 graph( 图 形 ) 和 text( 文 本 ) 连 接 ， 
以 图 形 和 文字 方式 展示 了 分 类 器 的 学 习 状 态 ， 只 有 当 分 类 器 接收 到 训练 集 输入 才 会 激活 。 
第 二 种 连接 类 型 ， 即 batchClassifier( 批 量 分 类 器 ) 和 incrementalClassifier( 增 量 分 类 器 ) 连 接 ， 
能 为 性 能 评估 器 提供 数据 ， 只 有 为 分 类 器 提供 测试 集 输 入 时 它 才 会 激活 。 根 据 分 类 器 的 类 
型 ， 决 定 激活 连接 中 的 哪 一 个 。 

Evaluation 条 目 十 分 混杂 。TrainingSetMaker 组 件 和 TestSetMaker 组 件 将 数据 集 转化 成 
训练 集 或 测试 集 。CrossValidationFoldMaker 组 件 将 数据 集 拆 分 为 训练 集 和 测试 集 。 
ClassifierPerformanceEvaluator 组 件 为 可 视 化 组 件 产 生 文 本 和 图 形 输 出 。 其 他 评估 组 件 像 过 
滤器 一 样 操作 ， 根 据 输入 激活 后 续 的 dataSet、instance、trainingSet， 或 testSet 连接 ， 例 
如 ，ClassAssigner 组 件 为 数据 集 分 配 一 个 分 类 。InstanceStreamToBatchMaker 组 件 将 输入 
流 实例 组 装 为 批量 数据 集 。 如 果 将 该 组 件 放 在 水 库 采样 过 滤器 后 ， 会 特别 管用 ， 它 允许 经 
水 库 采 样 后 的 实例 输出 用 于 训练 批量 学 习 方 案 。 

可 视 化 组 件 没有 连接 部 分 ， 有 些 组 件 有 动作 部 分 ， 如 Show results( 显 示 结 果 ) 和 Clear 
results( 清 除 结果 )。 


3.4 手把手 教 你 用 


1. 使 用 视角 

启动 知识 流 界面 ， 单 击 窗口 位 于 项 部 的 国 图 
单 击 All 按钮 选中 全 部 三 个 视角 ， 然 后 再 单 击 0 
三 个 标签 页 。 


标 ， 会 弹出 如 图 3.2 所 示 视 角 管 理 窗 口 ， 
K 按钮 。 会 发 现 知识 流 窗口 的 顶部 多 出 了 


然后 ， 在 知识 流 界 面 左 侧 Design( 设 计 ) 面 板 中 展开 DataSources( 数 据 源 ) 条 目 ， 并 选择 
ArffLoader 组 件 ， 这 时 鼠标 指针 会 变 成 “十 ”字形 。 然 后 ， 单 击 布局 面板 的 任意 位 置 ， 
将 ArffLoader 组 件 放 置 在 布局 区 域 ， 在 布局 区 域 可 以 看 到 ArffLoader 图 标 出 现 ， 如 图 3.6 


所 示 。 
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3.6 放置 ArffLoader 组件 


下 一 步 ， 指 定 加 载 的 ARFF 文件 ， 在 布局 区 
出 式 菜单 中 选择 Configure( 配 置 ) 菜 单项 ， 在 如 图 


域 的 ArffLoader 图 标 上 右 击 ， 在 出 现 的 弹 
3.7 所 示 的 对 话 框 中 单 击 Browse 按钮 ， 浏 


览 定 位 到 欲 加 载 的 ARFF 文件 位 置 ， 选 择 iris.arff 文件 。 对 话 框 下 部 有 一 个 


useRelativePath( 使 用 相对 路 径 ) 选 项 ， 用 于 在 相对 


路 径 和 绝对 路 径 间 切换 。 


Abrat 
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3.7 浏览 定位 ARFF 文件 


在 布局 区 域 的 ArffLoader 图 标 上 再 次 右 训 


Ff， 在 出 现 的 弹出 式 菜单 中 选择 Send to 


perspective( 发 送 至 视角 ) 菜 单项 ， 可 以 看 到 有 两 个 子 菜单 项 出 现 ， 第 一 个 是 Attribute 
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summary( 属 性 总 结 )， 第 二 个 是 Scatter plot matrix( 散 点 图 矩阵 )， 如 图 3.8 所 示 。 分 别 单 击 
两 个 子 菜单 项 。 
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图 3.8 发送 至 视角 
注意 到 这 里 无 法 发 送 到 SQL Viewer(SQL 查看 器 ) 视 角 ， 是 因为 该 视角 只 是 访问 数据 库 
的 工具 ， 功 能 相对 独立 ， 有 具体 使 用 可 参见 第 1 章 SQL 查看 器 内 容 。 
单 击 Attribute summary 标签 页 切换 至 属性 总 结 面板 ， 如 图 3.9 所 示 ， 其 操作 与 探索 者 
界面 完全 一 样 。 


图 3.9 属性 总 结 面板 

单 击 Scatter plot matrix 标签 页 切换 至 散 点 图 矩阵 面板 ， 如 图 3.9 所 示 ， 其 操作 与 探索 
者 界面 完全 一 样 。 

2. 使 用 J48 交叉 验证 

本 示例 建立 一 个 采用 批 处 理 模 式 加 载 ARFF 文件 的 数据 流 ， 并 使 用 J48 执行 交叉 验证 。 

本 示例 也 可 以 单 击 右 边 工 具 栏 中 形 如 | 国 | 的 “模板 ”( 右 起 第 三 个 ) 按 钮 加 载 己 有 的 模 
板 ， 如 果 不 知道 是 哪个 按钮 ， 读 者 可 将 鼠标 指针 依次 移 到 工具 栏 按钮 上 ， 并 暂停 数秒 ， 如 
果 有 一 个 按钮 出 现 的 提示 是 Load a template layout( 加 载 布局 模板 )。 单 击 该 按钮 ， 在 弹出 的 
菜单 中 选择 Cross validation( 交 叉 验 证 ) 菜 单项 ， 就 会 加 载 如 图 3.11 所 示 的 交叉 验证 示例 。 
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图 3.11 Weka 自 带 的 交叉 验证 示例 


当然 ， 采 用 这 种 直接 加 载 示 例 的 方式 得 不 到 什么 锻炼 。 建 议 将 它 关 闭 ， 自 己 手 工 一 步 
一 步 建立 ， 操 作 步 又 如 下 。 

首先 ， 在 知识 流 界面 左 侧 Design( 设 计 ) 面 板 中 展开 DataSources( 数 据 源 ) 条 目 ， 并 选择 
ArffLoader 组 件 ， 这 时 鼠标 指针 会 变 成 “十 ” 字 线 形 。 然 后 ， 单 击 布局 面板 的 任意 位 置 ， 
将 ArffLoader 组 件 放置 在 布局 区 域 ， 在 布局 区 域 可 以 看 到 有 ArffLoader 图 标 出 现 。 然 后 ， 
指定 加 载 的 ARFF 文件 ， 在 布局 区 域 的 ArffLoader 图 标 上 右 击 ， 在 出 现 的 弹出 式 菜单 中 选 
择 Configure( 配 置 ) 菜 单项 ， 在 弹出 窗口 中 单 击 Browse 按钮 ， 浏 览 定位 到 欲 加 载 的 ARFF 
文件 位 置 ， 选 择 iris 数据 集 。 

然后 ， 在 设计 面板 中 单 击 展开 Evaluation( 评 估 ) 条 目 ， 选 择 该 条 目下 的 ClassAssigner 
组 件 ， 该 组 件 用 于 设置 将 哪 一 列 作 为 类 别 属性 ， 将 该 组 件 放置 布局 区 域 的 任意 位 置 。 现 在 
将 ArffLoader 组 件 连接 到 ClassAssigner 组 件 ， 右 击 ArffLoader 组 件 ， 选 择 弹 出 菜单 中 的 
dataSet( 数 据 集 ) 菜 单项 ， 会 出 现 一 条 橡皮 筋 线 ， 将 鼠标 指针 移动 到 ClassAssigner 组 件 ， 然 
后 单 击 ， 会 看 到 一 条 标记 为 dataSet 的 红线 将 这 两 个 组 件 连接 起 来 。 

下 一 步 是 右 击 ClassAssigner 组 件 ， 并 从 菜单 中 选择 Configure( 配 置 ) 菜 单项 。 这 将 弹出 
一 个 窗口 ， 可 以 指定 哪个 列 作 为 数据 集 的 类 别 属性 ， 如 图 3.12 所 示 。 默 认 最 后 一 列 是 类 别 
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属性 ， 在 本 例 中 ，class 列 为 最 后 一 列 ， 默 认为 类 别 属性 ， 因 
比 也 可 以 不 用 指定 类 别 属 性 。 一 

下 一 步 ， 在 设计 面板 中 的 Evaluation 条 目 内 选择 Gees ds whee 
CrossValidationFoldMaker 组 件 ， 并 把 它 放置 在 布局 区 域 。 右 
f ClassAssigner 组 件 ， 选 择 菜单 中 的 dataSet 菜单 项 ， 然 后 单 ts 
上 CrossValidationFoldMaker 组 件 ， 连 接 ClassAssigner 组 件 和 3.12 ”选择 类 别 属性 
CrossValidationFoldMaker 组 件 。 

下 一 步 ， 在 设计 面板 中 单 击 展开 Classifiers( 分 类 器 ) 条 目 ， 然 后 在 trees( 树 ) 子 条 目 中 选择 
J48 组 件 ， 将 J48 组 件 放置 在 布局 区 域 。 然 后 ， 在 CrossValidationFoldMaker 组 件 上 右 击 ， 从 
弹出 式 菜单 中 选择 trainingSet( 训 练 集 ) 连 接 到 J48 组 件 。 再 次 右 击 CrossValidationFoldMaker 
组 件 ， 选 择 testSet( 测 试 集 ) 连 接 到 J48 组 件 。 

在 Evaluation 条 目 中 选择 ClassifierPerformanceEvaluator 组 件 ， 放 置 在 布局 区 域 中 。 右 
击 J48 组 件 ， 从 弹出 式 菜单 中 选择 batchClassifier 菜单 项 ， 连 接 J48 组 件 和 
ClassifierPerformanceEvaluator 组 件 。 

最 后 ， 在 设计 面板 中 单 击 展开 Visualization( 可 视 化 ) 条 目 ， 选 择 TextViewer 组 件 并 放 
置 到 布局 区 域 。 右 击 ClassifierPerformanceEvaluator 组 件 ， 从 弹出 式 菜单 选择 text 菜单 项 ， 
连接 ClassifierPerformanceEvaluator 组 件 和 TextViewer 组 件 。 然 后 ， 选 择 并 放置 可 视 化 条 
目下 的 GraphViewer 组 件 ， 右 击 J48 组 件 ， 从 弹出 式 菜单 中 选择 graph 菜单 项 ， 连 接 J48 
组 件 和 GraphViewer 组 件 。 
上 述 全 部 步 又 完成 后 ， 形 成 的 设计 图 如 图 3.13 所 示 。 
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3.13 ”完成 后 的 设计 图 


现在 ， 在 窗口 顶部 的 工具 栏 上 单 击 运行 按钮 辽 启动 流程 执行 。 流 中 每 个 组 件 的 进度 信 
息 将 出 现在 窗口 底部 的 Status( 状 态 ) 和 Log( 日 志 ) 区 域 ， 如 图 3.14 所 示 。 
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图 3.14 ”状态 与 日 志 


流程 执行 完成 后 ， 右 击 TextViewer 组 件 ， 从 弹出 式 菜单 中 选择 Show results( 显 示 结 果 ) 
菜单 项 ， 可 以 查看 到 如 图 3.15 所 示 的 结果 。 
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图 3.15 文本 输出 结果 


右 击 GraphViewer 组 件 ， 从 弹出 式 菜单 中 选择 Show results 菜单 项 ， 可 以 查看 到 如 
图 3.16 所 示 的 结果 。 实 际 上 这 是 十 折 交 叉 验 证 ， 每 折 作 为 测试 集 的 运行 结果 ， 因 此 有 10 
条 结果 。 

单 击 图 3.16 中 的 任意 一 行 ， 出 现 如 图 3.17 所 示 的 决策 树 。 


= Set 2 (iris) J 
- Set 1 (iris) J 
- Set 3 (iris) J 
~ Sut 4 (iris) J 
-Set 5 (iris) J 
-Se ) J 


Se ) J 
- Sot 8 (iris) J 
- Sot 9 (iris) J 
~ Set 10 (Giris) J 


图 3.16 图 形 输出 结果 图 3.17 决策 树 


如 果 还 想 看 到 散 点 图 以 及 错误 分 类 的 点 ， 可 以 放置 一 个 ModelPerformanceChart 组 件 
到 布局 区 域 ， 然 后 右 击 ClassifierPerformanceEvaluator 组 件 ， 从 弹出 式 菜单 选择 
visualizableError 菜单 项 ， 连 接 ClassifierPerformanceEvaluator 组 件 和 ModelPerformanceChart 
组 件 。 再 次 运行 后 ， 右 击 ModelPerformanceChart 组 件 ， 选 择 show chart( 显 示 图 ) 菜 单项 ， 
就 会 弹出 如 图 3.18 所 示 的 模型 性 能 图 表 窗口 。 窗 口 操作 与 探索 者 类 似 ， 不 再 装 述 。 
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图 3.18 ”模型 性 能 图 表 
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3. 绘制 多 条 ROC 曲线 


知识 流 界面 可 以 在 同样 的 绘图 窗口 内 绘制 多 条 ROC 曲线 ， 以 比较 多 个 分 类 器 的 性 
能 ， 这 在 探索 器 中 是 无 法 做 到 的 。 

本 例 使 用 J48 和 RandomForest 作为 分 类 器 ， 然 后 自己 手工 一 步 一 步 建立 多 ROC 曲线 
示例 ， 操 作 步 又 如 下 。 

首先 ， 在 知识 流 界 面 左 侧 Design 面板 中 展开 DataSources 条 目 ， 并 选择 ArffLoader 组 
件 ， 这 时 鼠标 指针 会 变 成 “十 ”字形 。 然 后 ， 单 击 布局 面板 的 任意 位 置 ， 将 ArffLoader 组 
件 放 置 在 布局 区 域 ， 在 布局 区 域 可 以 看 到 ArffLoader 图 标 出 现 。 然 后 ， 指 定 加 载 的 ARFF 
文件 ， 在 布局 区 域 的 ArffLoader 图 标 上 右 击 ， 在 出 现 的 弹出 式 菜单 中 选择 Configure( 配 置 ) 
菜单 项 ， 在 如 前 面 图 3.7 所 示 的 对 话 框 中 单 击 Browse 按钮 ， 浏 览 定 位 到 欲 加 载 的 ARFF 文 
件 位 置 ， 本 例 定位 到 data 目录 并 选择 ionosphere.arff 数据 集 。 

然后 ， 在 设计 面板 中 单 击 展开 Evaluation 条 目 ， 选 择 该 条 目下 的 ClassAssigner 组 件 ， 
该 组 件 用 于 选择 哪 一 列 作为 类 别 属 性 ， 然 后 将 其 放置 布局 区 域 的 任意 位 置 。 现 在 将 
ArffLoader 组 件 连接 到 ClassAssigner 组 件 ， 右 击 ArffLoader 组 件 ， 选 择 弹出 菜单 中 的 
dataSet( 数 据 集 ) 菜 单项 ， 会 出 现 一 条 橡皮 筋 线 ， 将 鼠标 指针 移动 到 ClassAssigner 组 件 ， 然 
后 单 击 ， 会 看 到 一 条 标记 为 dataSet 的 红线 将 这 两 个 组 件 连接 起 来 。 

下 一 步 右 击 ClassAssigner 组 件 ， 并 从 菜单 中 选择 Configure 菜单 项 。 在 弹出 的 窗口 指 
定 哪个 列 作为 数据 集 的 类 别 属性 。 默 认 最 后 一 列 是 类 别 属性 。 

接 下 来 ， 在 Evaluation 条 目 中 选择 ClassValuePicker 组 件 ， 该 
组 件 允 许 选 择 哪 一 个 类 别 值 用 于 ROC 评估 。 将 组 件 放置 在 布局 区 © 
域 ， 右 击 ClassAssigner 组 件 ， 选 择 弹出 式 菜单 的 dataSet 菜单 项 ， ea 
将 它 与 ClassValuePicker 组 件 相连 接 。 然 后 右 击 ClassValuePicker 
组 件 ， 在 弹出 菜单 中 选择 Configure 菜单 项 ， 在 弹出 的 如 图 3.19 
所 示 的 对 话 框 中 选择 类 别 值 为 g。 图 3.19 选择 类 别 值 

然后 ， 在 设计 面板 中 的 Evaluation 条 目 内 选择 
CrossValidationFoldMaker 组 件 ， 并 把 它 放置 在 布局 区 域 。 右 击 ClassAssigner 组 件 ， 选 择 菜 
单 中 的 dataSet 菜单 项 ， 然 后 单 击 CrossValidationFoldMaker 组 件 ， 连 接 ClassAssigner 组 件 
和 CrossValidationFoldMaker 组 件 。 

最 后 ， 在 Design 面板 上 单 击 展开 Classifiers 条 目 ， 并 在 trees 子 条 目 选择 J48 组 件 ， 
将 该 组 件 放置 在 布局 区 域 。 然 后 ， 在 CrossValidationFoldMaker 组 件 上 右 击 ， 从 弹出 式 菜 
单 中 选择 trainingSet 并 连接 到 J48 组 件 。 再 次 右 击 CrossValidationFoldMaker 组 件 ， 选 择 
testSet 并 连接 到 J48 组 件 。 

重复 上 述 最 后 一 个 步骤 ， 只 不 过 将 J48 组 件 换 成 RandomForest 分 类 器 组 件 。 

接 下 来 ， 回 到 Evaluation 条 目 ， 将 一 个 ClassifierPerformanceEvaluator 组 件 放 置 到 布局 
区 域 。 在 J48 组 件 的 弹出 式 菜单 中 选择 batchClassifier 菜单 项 ， 连 接 J48 组 件 与 
ClassifierPerformanceEvaluator 组 件 。 再 将 另 一 个 ClassifierPerformanceEvaluator 组 件 放 置 到 
布局 区 域 ， 照样 通过 batchClassifier 连接 RandomForest 组 件 与 
ClassifierPerformanceEvaluator 组 件 。 

接 下 来 ， 将 Visualization 条 目 中 的 ModelPerformanceChart 组 件 放 置 到 布局 区 域 。 分 别 


从 两 个 ClassifierPerformanceEvaluator 组 件 的 弹出 式 菜单 中 ， 选 择 thresholdData 菜单 项 ， 
将 ClassifierPerformanceEvaluators 组 件 与 两 个 ModelPerformanceChart 组 件 相 连接 。 

最 后 ， 将 Visualization 条 目 中 的 TextViewer 组 件 放置 到 布局 区 域 。 分 别 从 两 
个 ClassifierPerformanceEvaluator 组 件 的 弹出 式 菜单 中 ， 选 择 text 菜单 项 ， 将 两 个 
ClassifierPerformanceEvaluators 组 件 与 TextViewer 组 件 相 连接 。 

绘制 并 调整 后 的 知识 流 图 ， 如 图 3.20 所 示 。 
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图 3.20 多 条 ROC 曲线 知识 流 


现在 ， 在 窗口 上 端的 工具 栏 中 单 击 play 按钮 启动 流程 。 数 据 流 中 的 每 个 组 件 的 进度 信 
息 将 出 现在 窗口 底部 的 Status( 状 态 ) 和 Log( 日 志 ) 区 域 。 

右 击 ModelPerformanceChart 组 件 ， 在 弹出 菜单 选择 Show plot 菜单 项 。 弹 出 如 图 3.21 
所 示 的 ROC 曲线 图 。 图 右边 的 图 例 显示 用 符号 “x” 绘 制 的 曲线 为 RandomForest 分 类 器 
的 ROC， 用 符号 “+” 绘 制 的 曲线 为 J48 分 类 器 的 ROC。 比 较 一 下 ， 不 难看 出 
RandomForest 的 ROC 曲线 都 在 J48 的 ROC 曲线 的 上 方 ， 由 于 本 例 的 RandomForest 分 类 
模型 尽 可 能 靠近 ROC 图 的 左上 角 ， 因 此 优 于 J48。 
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3.21 多 条 ROC 曲线 
右 击 TextViewer 组 件 ， 选 择 Show results 菜单 项 ， 会 弹出 如 图 3.22 所 示 的 文本 查看 器 
窗口 。 对 照 两 个 分 类 器 的 性 能 ， 可 知 RandomForest 分 类 器 的 准确 率 为 93.4473%，J48 分 类 
器 的 准确 率 为 91.453%， 也 证 实 了 本 例 RandomForest 优 于 J48 的 结论 。 
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3.22 文本 查看 器 

4. 集成 学 习 器 比较 

在 第 2 章 的 集成 学 习 中 ， 已 经 学 习 了 三 种 集成 学 习 的 方法 ， 本 例 试图 对 Bagging、 
AdaBoostingM1， 以 及 RandomForest 进行 性 能 比较 ， 使 用 J48 分 类 器 作为 参照 ， 为 了 公平 
起 见 ， 使 用 尽 可 能 多 的 数据 集 ， 只 要 满足 类 别 属性 为 标 称 型 即 可 。 

首先 ， 在 知识 流 界 面 左 侧 Design 面板 中 展开 DataSources 条 目 ， 并 选择 ArffLoader 组 
件 ， 这 时 鼠标 指针 会 变 成 “十 ”字形 。 然 后 ， 单 击 布局 面板 的 任意 位 置 ， 将 ArffLoader 组 
件 放置 在 布局 区 域 ， 在 布局 区 域 可 以 看 到 ArffLoader 图 标 出 现 。 然 后 ， 指 定 加 载 的 ARFF 
文件 ， 在 布局 区 域 的 ArffLoader 图 标 上 右 击 ， 在 出 现 的 弹出 式 菜单 中 选择 Configure 菜单 
项 ， 在 如 前 面 图 3.7 所 示 的 对 话 框 中 单 击 Browse 按钮 ， 浏 览 定 位 到 欲 加 载 的 ARFF 文件 位 
置 ， 本 例 定位 到 data 目录 并 选择 breast-cancer.arff 数据 集 。 

然后 ， 在 设计 面板 中 单 击 展开 Evaluation 条 目 ， 选 择 该 条 目下 的 ClassAssigner 组 件 ， 
该 组 件 用 于 选择 哪 一 列 作为 类 别 属性 ， 然 后 将 其 放置 布局 区 域 的 任意 位 置 。 现 在 将 
ArffLoader 组 件 连 接 到 ClassAssigner 组 件 ， 右 击 ArffLoader 组 件 ， 选 择 弹出 菜单 中 的 
dataSet 菜单 项 ， 会 出 现 一 条 橡皮 筋 线 ， 将 鼠标 指针 移动 到 ClassAssigner 组 件 上 ， 然 后 单 
击 ， 会 看 到 一 条 标记 为 dataSet 的 红线 将 这 两 个 组 件 连接 起 来 。 

下 一 步 ， 右 击 ClassAssigner 组 件 ， 并 从 菜单 中 选择 Configure 菜单 项 。 在 弹出 的 窗口 
指定 哪个 列 作为 数据 集 的 类 别 属性 。 默 认 最 后 一 列 是 类 别 属性 ， 由 于 Weka 自 带 数据 集中 
除 回归 问题 外 都 满足 这 个 要 求 ， 因 此 ， 这 一 步 可 以 不 用 指定 类 别 属 性 。 

然后 ， 在 设计 面板 中 的 Evaluation 条 目 内 选择 CrossValidationFoldMaker 组 件 ， 并 把 它 
放置 在 布局 区 域 。 右 击 ClassAssigner 组 件 ， 选 择 菜 单 中 的 dataSet 菜单 项 ， 然 后 单 击 
CrossValidationFoldMaker 组 件 ， 连 接 ClassAssigner 组 件 和 CrossValidationFoldMaker 组 件 。 

下 一 步 ， 在 Design 面板 上 单 击 展开 Classifiers 条 目 ， 并 在 trees 子 条 目 选择 J48 组 件 ， 
将 该 组 件 放置 在 布局 区 域 。 然 后 ， 在 CrossValidationFoldMaker 组 件 上 右 击 ， 从 弹出 式 菜 
单 中 选择 trainingSet 并 连接 到 J48 组 件 。 再 次 右 击 CrossValidationFoldMaker 组 件 ， 选 择 
testSet 并 连接 到 J48 组 件 。 

重复 上 述 步骤 三 次 ， 只 不 过 依次 将 J48 组 件 换 成 Bagging 组 件 、AdaBoostingM1 组 件 
和 RandomForest 组 件 。 然 后 双击 集成 学 习 器 ， 将 基 分 类 器 设置 为 J48。 

接 下 来 ， 回 到 Evaluation 条 目 ， 将 一 个 ClassifierPerformanceEvaluator 组 件 放置 到 布局 
区 域 。 在 J48 组 件 的 弹出 式 菜单 中 选择 batchClassifier 菜单 项 ， 连 接 J48 组 件 与 


五 


ClassifierPerformanceEvaluator 组 件 。 重 复 上 述 步 骤 三 次 ， 


只 不 过 依次 将 J48 组 件 换 成 


Bagging 组 件 、AdaBoostingM1 组 件 和 RandomForest 组 件 ， 与 ClassifierPerformanceEvaluator 


组 件 相 连接 。 


最 后 ， 将 Visualization 条 目 中 的 TextViewer 组 件 放置 到 布局 区 域 。 分 别 从 四 个 
ClassifierPerformanceEvaluator 组 件 的 弹出 式 菜单 中 ， 选择 text 菜单 项 ， 将 四 个 
ClassifierPerformanceEvaluator 组 件 与 TextViewer 组 件 相 连接 。 


绘制 并 调整 后 的 知识 流 图 如 图 3.23 所 示 。 
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图 3.23 集成 学 习 器 比较 知识 流 


现在 ， 在 窗口 上 端的 工具 栏 中 单 击 play 按钮 启动 流程 。 流 中 的 每 个 组 件 的 进度 信息 将 
出 现在 窗口 底部 的 Status( 状 态 ) 和 (Log 日 志 ) 区 域 。 

右 击 TextViewer 组 件 ， 选 择 Show results 菜单 项 ， 会 弹出 如 图 3.24 所 示 的 文本 查看 器 窗 
口 。 对 照 四 个 分 类 器 的 性 能 ， 这 里 只 考查 正确 分 类 的 准确 率 ， 将 结果 填 入 表 3.1 中 。 


3.24 ”四 个 分 类 器 的 性 能 


现在 ， 依 次 对 其 他 多 个 数据 集 进 行 测试 。 


操作 步骤 是 : 右 击 TextViewer 组 件 ， 选 择 


Clear results 菜单 项 清除 结果 。 然 后 双击 ArffLoader 组 件 ， 选 择 加 载 其 他 ARFF 文件 。 最 


后 ， 运 行 、 查 看 结果 并 将 结果 填 入 表 3.1。 


为 了 更 好 地 研究 四 种 分 类 器 的 分 类 准确 度 ， 绘 出 其 分 类 准确 率 的 柱 形 图 ， 如 图 3.25 所 
示 。 从 图 3.25 中 可 以 看 出 ，J48 是 很 优秀 的 分 类 器 ， 大 部 分 情况 下 集成 学 习 器 会 比 作为 基 
分 类 器 的 J48 性 能 更 好 ， 但 是 ， 也 有 比 基 分 类 器 更 差 的 情况 出 现 。 
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表 3.1 四 个 分 类 器 的 分 类 准确 率 比较 


J48 | Bagging | AdaBoostingM1 RandomForest 


breast-cancer.arff 75.5245% 73.7762% 69.5804% 69.9301% 


contact-lenses.arff 83.3333% 75% 70.8333% 83.3333% 


credit-g.arff 70.5% 73.3% 69.6% 74.3% 


diabetes.arff 73.8281% 74.6094% 72.3958% 73.4375% 
glass.arff 66.8224% 74.2991% 74.2991% 73.8318% 


ionosphere.arff 91.453% 92.8775% 93.1624% 94.5869% 


iris.2D.arff 96% 94% 94.6667% 94.6667% 
iris.arff 96% 94.6667% 93.3333% 94.6667% 
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labor.arff 73.6842% 85.9649% 89.4737% 87.7193% 


三 


e.arff 95.7333% 96.6% 97.4667% 96.6667% 


91.5081% 
unbalanced.arff 98.3645% 
96.3218% 
weather.nominal.arff 
weather.numeric.arff 
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图 3.25 四 个 分 类 器 的 分 类 准确 率 柱 形 图 


5. 处理 增 量 数据 


一 些 Weka 的 分 类 器 、 聚 类 器 和 过 滤器 可 以 采用 流 方 式 进行 数据 的 增 量 处 理 。 本 例 就 
是 增 量 地 训练 和 测试 朴素 贝 叶 斯 学 习 方案 。 其 结果 会 发 送 到 TextViewer 组 件 ， 性 能 预测 则 
由 StripChart( 带 状 图 ) 组 件 动态 作 图 。 实 验 步 又 如 下 。 

首先 ， 在 知识 流 界面 左 侧 Design 面板 中 展开 DataSources 条 目 ， 并 选择 ArffLoader 组 
件 ， 这 时 鼠标 指针 会 变 成 “十 ”字形 。 然 后 ， 单 击 布局 面板 的 任意 位 置 ， 将 ArffLoader 组 
件 放置 在 布局 区 域 ， 在 布局 区 域 可 以 看 到 ArffLoader 图 标 出 现 。 然 后 ， 指 定 加 载 的 ARFF 
文件 ， 在 布局 区 域 的 ArffLoader 图 标 上 右 击 ， 在 出 现 的 弹出 式 菜 单 中 选择 Configure 菜单 
项 ， 在 前 面 如 图 3.7 所 示 的 对 话 框 中 单 击 Browse 按钮 ， 浏 览 定位 到 欲 加 载 的 ARFF 文件 位 
置 ， 本 例 定 位 到 data 目录 并 选择 segment-challenge.arff 数据 集 。 

然后 ， 在 设计 面板 中 单 击 展开 Evaluation 条 目 ， 选 择 该 条 目下 的 ClassAssigner 组 件 ， 
该 组 件 用 于 选择 哪 一 列 作为 类 别 属性 ， 然 后 将 其 放置 布局 区 域 的 任意 位 置 。 现 在 将 
ArffLoader 组 件 连接 到 ClassAssigner 组 件 ， 右 击 ArffLoader 组 件 ， 选 择 弹出 菜单 中 的 
instance( 数 据 集 ) 菜 单项 ， 会 出 现 一 条 橡皮 筋 线 ， 将 鼠标 指针 移动 到 ClassAssigner 组 件 上 ， 
然后 单 击 ， 会 看 到 一 条 标记 为 dataSet 的 红线 将 这 两 个 组 件 连 接 起 来 。 

下 一 步 是 右 击 ClassAssigner 组 件 ， 并 从 菜单 中 选择 Configure 菜单 项 。 在 弹出 的 窗口 
指定 哪个 列 作为 数据 集 的 类 别 属性 。 默 认 最 后 一 列 是 类 别 属性 。 

然后 ， 在 Design 面板 上 单 击 展开 Classifiers 条 目 ， 并 在 bayes 子 条 目 选择 
NaiveBayesUpdateable 组 件 ， 将 该 组 件 放置 在 布局 区 域 。 然 后 ， 在 ClassAssigner 组 件 上 右 
击 ， 从 弹出 式 菜单 中 选择 instance 并 连接 到 NaiveBayesUpdateable 组 件 。 

接 下 来 ， 回 到 Evaluation 条 目 ， 将 一 个 IncrementalClassiferEvaluator 组 件 放置 到 布局 区 
域 。 在 NaiveBayesUpdateable 组 件 的 弹出 式 菜单 中 选择 incrementalClassifier 菜单 项 ， 连 接 
NaiveBayesUpdateable 组 件 与 IncrementalClassiferEvaluator 组 件 。 

然后 ， 将 Visualization 条 目 中 的 TextViewer 组 件 放 置 到 布局 区 域 。 右 击 
IncrementalClassifierEvaluator 组 件 ， 从 弹出 式 菜 单 中 选择 text 菜单 项 ， 将 
IncrementalClassifierEvaluator 组 件 与 TextViewer 组 件 相连 接 。 

最 后 ， 将 Visualization 条 目 中 的 StripChart 组 件 放置 到 布局 区 域 。 右 击 
IncrementalClassifierEvaluator 组 件 ， 从 弹出 式 菜单 中 选择 chart 菜单 项 ， 将 
IncrementalClassifierEvaluator 组 件 与 StripChart 组 件 相 连接 。 

绘制 并 调整 后 的 处 理 增 量 数据 的 知识 流 图 如 图 3.26 所 示 。 
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3.26 ”处 理 增 量 数据 的 知识 流 
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在 启动 流程 之 前 ， 一 定 要 记得 先 显示 Strip Chart 图 表 ， 和 否则 看 不 到 动态 显示 的 结果 。 
操作 步骤 为 : 右 击 StripChart 组 件 ， 在 弹出 菜单 中 选择 Show chart 菜单 项 ， 就 会 弹出 一 个 
始终 显示 在 顶层 的 Strip Chart 图 表 。 

现在 ， 在 窗口 上 端的 工具 栏 中 单 击 play 按钮 启动 流程 。 注 意 观 察 Strip Chart 图 表 的 变 
化 ， 最 终 的 Strip Chart 图 表 如 图 3.27 所 示 。 

国 suipcher LS 
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3.27 Strip Chart 图 表 


图 3.27 中 共有 三 条 线 ， 绿 线 表示 准确 率 ， 红 线 表 示 RMSE( 均 方 根 误差 )， 蓝 线 表 示 
Kappa 指标 。 绿 线 和 蓝 线 都 是 越 接近 1 越 好 ， 即 越 大 越 好 ， 而 红线 则 是 越 接近 0 越 好 ， 即 
越 小 越 好 。 

注意 到 在 本 例 中 ， 所 使 用 的 朴素 贝 叶 斯 分 类 器 先 要 预测 每 个 输入 的 实例 ， 然 后 再 训练 
(更 新 ) 分 类 器 。 因 此 ， 在 刚 开始 的 时 候 ， 由 于 输入 实例 很 少 ， 分 类 器 的 性 能 很 差 ， 但 随 着 
输入 实例 的 逐渐 增加 ， 分 类 器 得 到 更 多 地 训练 ， 其 性 能 逐步 提高 直至 各 

最 后 ， 学 习 StripChart 组 件 的 选项 配置 。 关 闭 Strip Chart 图 表 ， 双 击 布局 区 域 的 
StripChart 组 件 ， 在 弹出 的 对 话 框 中 将 refreshFreq 选项 由 默认 的 5 修改 为 >， 将 xlabelFreq 
选项 由 默认 的 500 修改 为 250， 如 图 3.28 所 示 。 
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图 3.28 修改 StripChart 选项 


然后 重新 运行 ， 所 显示 的 Strip Chart 图 表 如 图 3.28 所 示 。 可 见 ，refreshFreq 选项 控制 
绘制 数据 点 的 频率 ， 降 低 refreshFreq 的 值 ， 意 味 着 拉 长 时 间 轴 (X 轴 ); xlabelFreq 选项 控制 
于 轴 上 显示 标签 的 频率 ， 降 低 xlabelFreq 的 值 ， 意 味 着 在 XX 轴 每 隔 更 短 一 段 距离 就 显示 一 
个 标签 


国 Srip Chert Lo ms 
图 3.29 重新 运行 的 Strip Chart 图 表 
6. 保存 图 表 


从 Weka 3.7.5 版 本 开始 ， 就 支持 创建 和 保存 图 表 ， 如 散 点 图 、 属 性 柱状 图 、 误 差 曲线 


图 、ROC 曲线 等 。 可 以 使 用 Weka 的 内 建 图 表 ， 也 可 以 使 用 JFreeChart 库 或 可 选 包 ， 如 : 
使 用 包 管 理 器 安装 jfreechartOffscreenChartRenderer 可 选 包 ， 呈 现 出 更 漂亮 的 图 表 。 

本 次 实践 使 用 两 个 示例 ， 第 一 个 示例 打开 数据 集 ， 保 存单 个 属性 的 可 视 化 图 像 和 双 属 
性 的 散 点 图 。 第 二 个 示例 保存 分 类 器 的 ROC 曲线 图 和 误差 散 点 图 。 

第 一 个 示例 步骤 如 下 。 

首先 ， 将 一 个 ArffLoader 组 件 放 置 在 布局 区 域 ， 然 后 ， 双 击 布局 区 域 的 ArffLoader 图 
标 ， 选 择 加 载 iris.arff 数据 集 。 下 一 步 ， 将 一 个 AttributeSummarizer 组 件 放 置 在 布局 区 
域 ， 选 择 dataSet 连接 ArffLoader 组 件 和 AttributeSummarizer 组 件 ， 双 击 
AttributeSummarizer 组 件 ， 将 Attribute to chart 选项 设置 为 sepalwidth， 以 可 视 化 花 莹 宽 。 
然后 ， 将 一 个 ImageSaver 组 件 放置 在 布局 区 域 ， 选 择 image 连接 AttributeSummarizer 组 件 
和 ImageSaver 组 件 ， 双 击 ImageSaver 组 件 并 将 设置 Filename 选项 值 ， 本 书 设置 为 Weka 
安装 目录 下 的 output\AttributeSummary。 下 一 步 ， 将 一 个 DataVisualizer 组 件 放置 在 布局 区 
域 ， 选 择 dataSet 连接 ArffLoader 组 件 和 DataVisualizer 组 件 ， 双 击 DataVisualizer 组 件 ， 
将 X-axis attribute 选项 设置 为 sepallength( 花 葛 长 )， 将 Y-axis attribute 选项 设置 为 
petalwidth( 花 办 宽 )。 然 后 ， 再 次 将 一 个 ImageSaver 组 件 放置 在 布局 区 域 ， 选 择 image 连接 
DataVisualizer 组 件 和 第 二 个 ImageSaver 组 件 ， 双 击 第 二 个 ImageSaver 组 件 并 将 设置 
Filename 选项 值 ， 本 书 设置 为 Weka 安装 目录 下 的 output\DataVisualize。 

按 以 上 步骤 绘制 并 调整 后 的 可 视 化 数据 集 的 知识 流 图 ， 如 图 3.30 所 示 。 
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图 3.30 ”保存 可 视 化 数据 集 
现在 ， 在 知识 流 窗口 上 端的 工具 栏 中 单 击 play 按钮 启动 流程 。 用 Widows 资源 管理 器 
看 到 所 存 的 两 个 图 像 文 件 如 图 3.31 所 示 。 实 验 能 够 保存 单个 属性 的 图 像 和 双 属 性 的 散 点 
图 ， 结 果 符 合 预 期 。 
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3.31 保存 后 的 图 像 文件 
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第 二 个 示例 步骤 如 下 。 

首先 ， 将 一 个 ArffLoader 组 件 放置 在 布局 区 域 ， 然 后 ， 双 击 布局 区 域 的 ArffLoader 图 
标 ， 选 择 加 载 ionosphere.arff 数据 集 。 然 后 ， 将 一 个 ClassAssigner 组 件 放置 在 布局 区 域 ， 
并 用 dataSet 连接 将 ArffLoader 组 件 与 ClassAssigner 组 件 相 连 。 下 一 步 ， 将 一 
ClassValuePicker 组 件 放置 在 布局 区 域 ， 并 用 dataSet 连接 将 ClassAssigner 组 件 与 
ClassValuePicker 组 件 相 连 ， 双 击 ClassValuePicker 组 件 ， 选 择 类 别 值 为 g。 下 一 步 ， 将 一 
个 CrossValidationFoldMaker 组 件 放置 在 布局 区 域 ， 并 用 dataSet 连接 将 ClassValuePicker 
组 件 与 CrossValidationFoldMaker 组 件 相 连 。 然 后 ， 将 一 个 NaiveBayes 组 件 放置 在 布局 区 
域 ， 并 用 trainingSet 连接 和 testSet 连接 将 CrossValidationFoldMaker 组 件 与 NaiveBayes 组 
件 相 连 。 然 后 ， 将 一 个 ClassifierPerformanceEvaluator 组 件 放置 在 布局 区 域 ， 并 用 
batchClassifier 连接 将 NaiveBayes 组 件 与 ClassifierPerformanceEvaluator 组 件 相连 。 下 一 
步 ， 将 两 个 ModelPerformanceChart 组 件 放置 在 布局 区 域 ， 用 thresholdData 连接 将 
ClassifierPerformanceEvaluator 组 件 与 第 一 个 ModelPerformanceChart 组 件 相连 ， 用 
Visualizable 连接 将 ClassifierPerformanceEvaluator 组 件 与 第 二 个 ModelPerformanceChart 组 
件 相 连 ， 双 击 第 二 个 ModelPerformanceChart 组 件 ， 将 X-axis attribute 选项 设置 为 a13， 将 
Y-axis attribute 选项 设置 为 a17。 下 一 步 ， 将 两 个 ImageSaver 组 件 放置 在 布局 区 域 ， 用 两 

个 image 连接 分 别 将 两 个 ModelPerformanceChart 组 件 与 两 个 ImageSaver 组 件 相 连 ， 然 

后 ， 双 击 第 一 个 ImageSaver 组 件 ， 将 Filename 选项 设置 为 Weka 安装 目录 下 的 
output\ROC， 双 击 第 二 个 ImageSaver 组 件 ， 将 Filename 选项 设置 为 Weka 安装 目录 下 的 


xX| 


output\ ErrorPlot。 
完成 绘制 并 调整 后 的 知识 流 图 ， 如 图 3.32 所 示 。 
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3.32 ”保存 分 类 器 性 能 图 表 


现在 ， 在 知识 流 窗 口上 端的 工具 栏 中 单 击 play 按钮 启动 流程 。 用 Widows 资源 管理 器 
看 到 所 存 的 两 个 图 像 文件 如 图 3.33 所 示 。 实 验 能 够 保存 ROC 图 像 和 误差 散 点 图 ， 结 果 符 
合 预期 。 


7. 训练 并 保存 学 习 模 型 
本 次 实践 的 任务 是 ， 先 训练 一 个 NaiveBayes 分 类 器 ， 然 后 将 训练 后 的 学 习 模 型 序列 化 


到 一 个 二 进 制 文件 。 在 下 一 次 实践 中 ， 会 加 载 这 次 保存 的 模型 文件 ， 并 使 用 模型 进行 


测试 。 


3.33 ”保存 后 的 ErrorPlot 和 ROC 图像 文件 


首先 ， 将 一 个 ArffLoader 组 件 放 置 在 布局 区 域 ， 然 后 ， 双 击 布局 


区 域 的 ArffLoader 


标 ， 选 择 加 载 segment-challenge.arff 数据 集 。 下 一 步 ， 将 一 个 ClassAssigner 组 件 放置 在 布 
局 区 域 ， 选 择 dataSet 连接 ArffLoader 组 件 和 ClassAssigner 组 件 。 然 后 ， 将 一 

TrainingSetMaker 组 件 放置 在 布局 区 域 ， 选 择 dataSet 连接 ClassAssigner 组 件 和 
TrainingSetMaker 组 件 。 下 一 步 ， 将 一 个 NaiveBayes 组 件 放置 在 布局 区 域 ， 选 择 


trainingSet 连接 TrainingSetMaker 组 件 和 NaiveBayes 组 件 。 然 后 ， 将 一 
放置 在 布局 区 域 ， 选 择 text 连接 NaiveBayes 组 件 和 TextViewer 组 件 。 最 后 ， 将 一 个 


个 TextViewer 组 件 


SerializedModelSaver 组 件 放置 在 布局 区 域 ， 选 择 batchClassifier 连接 NaiveBayes 组 件 和 


SerializedModelSaver 组 件 ， 双 击 SerializedModelSaver 组 件 并 按照 图 3.34 设置 Prefix for 


filename( 文 件 名 前 级 )、Directory( 目 录 ) 选 项 值 ， 设 置 完 毕 后 关闭 该 对 话 框 。 
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图 3.34 设置 模型 保存 器 选项 


按 以 上 步骤 绘制 并 调整 后 的 保存 学 习 模型 的 知识 流 图 ， 如 图 3.35 所 示 。 
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现在 ， 在 知识 流 窗口 上 端的 工具 栏 中 单 击 play 按钮 启动 流程 。 流 程 结 束 后 ， 在 Weka 
安装 目录 下 的 output 子 目 录 下 就 会 生成 一 个 名 称 为 trainingModelNaiveBayes ”1_1.model 的 
模型 文件 ， 下 一 个 示例 会 加 载 这 个 模型 文件 。 

8. 加 载 学 习 模 型 并 预测 

本 次 实践 的 任务 是 : 加 载 上 次 保存 的 模型 文件 ， 然 后 用 模型 对 未 知 数据 进行 测试 。 
首先 ， 将 一 个 ArffLoader 组 件 放 置 在 布局 区 域 ， 然 后 ， 双 击 布局 区 域 的 ArffLoader 
标 ， 选 择 加 载 segment-test.arff 数据 集 。 下 一 步 ， 将 一 个 ClassAssigner 组 件 放 置 在 布局 区 域 ， 
选择 instance 连接 ArffLoader 组 件 和 ClassAssigner 组 件 。 然 后 ， 将 一 个 NaiveBayes 组 件 放置 
在 布局 区 域 ， 选 择 instance 连接 ClassAssigner 组 件 和 NaiveBayes 组 件 ， 双 击 NaiveBayes 组 
件 并 设置 Load model from file( 从 文件 加 载 模型 ) 选 项 为 上 一 个 示例 所 保存 的 模型 文件 ， 即 
outputvtrainingModelNaiveBayes_ 1 1.model。 下 一 步 ， 将 一 个 IncrementalClassifierEvaluator 组 
件 放 置 在 布局 区 域 ， 选择 incrementalClassifier 连接 NaiveBayes 组 件 和 
IncrementalClassifierEvaluator 组 件 。 然 后 ， 将 一 个 TextViewer 组 件 放 置 在 布局 区 域 ， 选 择 
text 连接 IncrementalClassifierEvaluator 组 件 和 TextViewer 组 件 。 最 后 ， 将 一 个 StripChart 
组 件 放置 在 布局 区 域 ， 选 择 chart 连接 IncrementalClassifierEvaluator 组 件 和 StripChart 组 
件 ， 双 击 StripChart 组 件 并 将 refreshFreq 选项 由 默认 的 5 修改 为 2， 将 xlabelFreq 选项 由 默 
认 的 500 修改 为 100， 设 置 完毕 后 关闭 该 对 话 框 。 

按 以 上 步骤 绘制 并 调整 后 的 加 载 学 习 模型 的 知识 流 图 ， 如 图 3.36 所 示 。 
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图 3.36 ”加 载 学习 模 型 
在 启动 流程 之 前 ， 一 定 要 记得 先 显示 Strip Chart 图 表 ， 否 则 看 不 到 动态 显示 的 结果 。 
步骤 为 : 右 击 StripChart 组 件 ， 在 弹出 菜单 中 选择 Show chart 菜单 项 ， 即 弹出 一 个 始终 显 
示 在 顶层 的 Strip Chart 图 表 。 
在 窗口 上 端的 工具 栏 中 单 击 play 按钮 启动 流程 。 注 意 观 察 Strip Chart 图 表 的 变化 ， 最 
终 的 Strip Chart 图 表 如 图 3.37 所 示 。 
国 Stip Chart (=. 


图 3.37 Strip Chart 图 表 


可 以 看 到 ， 最 初 的 性 能 似乎 过 于 优秀 ， 但 过 了 一 段 时 间 后 ， 其 性 能 才 逐 渐 稳 定 。 

要 注意 的 是 ， 本 例 与 前 面 的 “处 理 增 量 数据 ”示例 不 同 ， 虽 然 两 者 的 测试 实例 都 是 以 增 量 
模式 输入 到 分 类 器 中 ， 但 前 一 个 分 类 器 总 是 先 要 预测 每 个 输入 实例 ， 然 后 再 训练 (更 新 ) 分 类 
器 。 而 本 例 的 分 类 器 已 经 训练 好 了 ， 仅 仅 对 每 个 输入 实例 进行 预测 ， 不 能 更 新 分 类 器 。 


9. 聚 类 器 比较 


本 例 比较 EM 聚 类 器 和 k- 均 值 高 斯 分 布 聚 类 器 。 首 先 加 载 数据 集 并 去 除 类 别 属性 ， 然 
后 将 数据 集 按照 23 和 1/3 的 比例 划分 为 训练 集 和 测试 集 ， 然 后 分 别 用 EM 聚 类 器 和 
MakeDensityBasedClusterer 聚 类 器 进行 聚 类 ， 最 后 使 用 聚 类 器 性 能 评估 器 对 聚 类 器 的 性 能 
进行 评估 。 知 识 流 的 构建 步骤 如 下 。 

首先 ， 将 一 个 ArffLoader 组 件 放 置 在 布局 区 域 ， 然 后 ， 双 击 布局 区 域 的 ArffLoader 
标 ， 选 择 加 载 iris.arff 数据 集 。 下 一 步 ， 将 一 个 Remove 组 件 放置 在 布局 区 域 ， 选 择 
dataSet 连接 ArffLoader 组 件 和 Remove 组 件 ， 双 击 Remove 组 件 ， 将 attributeIndices 选项 
设置 为 last， 将 类 别 属性 去 除 。 然 后 ， 将 一 个 TrainTestSplitMaker 组 件 放置 在 布局 区 域 ， 
选择 dataSet 连接 Remove 组 件 和 TrainTestSplitMaker 组 件 。 下 一 步 ， 将 一 个 EM 组 件 放置 
在 布局 区 域 ， 选 择 trainingSet 连接 和 testSet 连接 将 TrainTestSplitMaker 组 件 和 EM 组 件 相 
连 。 然 后 ， 将 一 个 MakeDensityBasedClusterer 组 件 放置 在 布局 区 域 ， 选 择 trainingSet 连接 
和 testSet 连接 将 TrainTestSplitMaker 组 件 和 MakeDensityBasedClusterer 组 件 相 连 。 下 一 
步 ， 将 两 个 ClustererPerformanceEvaluator 组 件 放置 在 布局 区 域 ， 选 择 bactchClusterer 连接 
将 EM 组 件 和 第 一 个 ClustererPerformanceEvaluator 组 件 相 连 ， 选 择 bactchClusterer 连接 将 
MakeDensityBasedClusterer 组 件 和 第 二 个 ClustererPerformanceEvaluator 组 件 相 连 。 最 后 ， 将 一 
个 TextViewer 组 件 放置 在 布局 区 域 ， 选 择 text 连接 分 别 将 两 个 ClustererPerformanceEvaluator 
组 件 和 TextViewer 组 件 相 连 。 

按 以 上 步骤 绘制 并 调整 后 的 聚 类 器 比较 知识 流 图 ， 如 图 3.38 所 示 。 
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3.38 ” 聚 类 器 比较 知识 流 


现在 单 击 play 按钮 启动 流程 运行 。 然 后 右 击 TextViewer 组 件 ， 在 上 下 文 菜单 中 选择 
Show results 菜单 项 ， 得 到 如 图 3.39 所 示 的 比较 结果 。 
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3.39 ”比较 结果 
9 课 后 强化 练习 8 圭一 


3.1 试 比较 知识 流 和 探索 者 的 优势 与 不 足 。 

3.2 ”完成 “使 用 J48 交叉 验证 ”实验 。 

3.3 在 “绘制 多 条 ROC 曲线 ”实验 中 ， 为 什么 要 使 用 ClassValuePicker 组 件 ? 如 果 不 
使 用 会 怎样 ? 

3.4 ”为 什么 在 很 多 时 候 ， 集 成 学 习 方案 比 单独 的 分 类 器 (如 J48) 方 案 的 效果 要 好 ? 但 
也 有 例外 ， 这 是 为 什么 ? 

3.5 在 “保存 图 表 ” 实 验 中 ，X-axis attribute 选项 和 Y-axis attribute 选项 各 表示 什么 
含义 ? 

3.6 ”SerializedModelSaver 组 件 的 功能 是 什么 ? 

3.7 ”使 用 instance 连接 ， 分 别 将 数据 与 增 量 分 类 器 和 批量 分 类 器 相连 有 什么 差别 ? 
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Experimenter 界面 


探索 者 界面 和 知识 流 界面 能 够 帮助 数据 挖 握 人 员 确 定 机 器 学 习 方 案 在 
执行 给 定数 据 集 的 性 能 如 何 。 但 是 ， 很 多 实际 的 数据 挖 气 通 常会 涉及 非常 
繁重 的 实验 工作 ， 通 常会 有 多 个 学 习 方案 运行 在 不 同 的 数据 集 上 ， 经 常 需 
要 设置 不 同 的 参数 ， 探 索 者 和 知识 流 两 种 界面 真 的 不 适合 完成 这 类 实际 工 
作 。 针 对 这 种 情况 ，Weka 提供 Experimenter( 实 验 者 ) 界 面 ， 它 可 以 让 挖掘 
人 员 在 设置 好 大 规模 的 实验 ， 并 在 启动 实验 运行 后 ， 就 可 以 暂时 离开 去 做 
其 他 工作 ， 等 实验 运行 完成 后 ， 再 着 手 分 析 已 经 收集 好 的 性 能 统计 数据 。 
这 样 就 实现 了 实验 过 程 自动 化 ， 统 计 信 息 可 以 存储 为 ARFF 格式 的 文件 ， 
作为 进一步 的 数据 挖 据 的 主题 。 

知识 流 界面 超越 了 空间 的 限制 ， 允 许 机 器 学 习 方案 不 必 一 次 加 载 整个 
数据 集 就 可 运行 ;) 而 实验 者 界面 则 超越 了 时 间 的 限制 ， 它 包含 了 一 些 特殊 
动能 ， 供 高 级 用 户 使 用 Java RMI 在 多 台 机 器 间 分 配 计算 负载 。 这 样 ， 用 
户 可 以 设置 数据 量 很 大 的 实验 ， 并 且 在 运行 实验 时 不 必 守 候 ， 只 要 在 最 后 
分 析 性 能 统计 信息 即 可 .。 


数据 挖掘 与 机 器 学 习 
一 一 WEKA 应 用 技术 与 二 三 \ 


VY 


4.1 简 介 


Weka 实验 者 界面 能 让 用 户 更 为 方便 地 创建 、 运 行 、 修 改 和 分 析 实 验 。 例 如 ， 用 户 可 
以 创建 一 个 实验 ， 对 一 系列 数据 集运 行 多 个 学 习 方 案 ， 然 后 对 结果 进行 分 析 ， 以 确定 哪 一 
个 学 习 方 案 在 统计 数据 上 优 于 其 他 方案 。 

单 击 Weka GUI 选择 器 窗口 右边 的 Experimenter 按钮 就 可 以 启动 实验 者 窗口 ， 如 图 4.1 
所 示 。 


图 4.1 实验 者 界面 


刚 开始 启动 实验 者 界面 时 ， 实 验 者 界面 中 的 大 多 数 功能 都 不 可 用 。 用 户 可 单 击 Open.… 
按钮 打开 以 前 保存 的 实验 ， 或 者 单 击 New 按钮 新 建 实验 ， 在 这 之 后 这 些 功 能 才 可 用 。 
实验 者 界面 有 两 种 风格 ， 第 一 种 为 简单 界面 ， 提 供 了 进行 实验 所 需 的 大 多 数 功能 ， 第 
二 种 为 高 级 界面 ， 可 以 充分 利用 实验 者 界面 的 功能 。 在 窗口 上 部 ， 有 一 个 称 为 Experiment 
Configuration Mode( 实 验 配置 模式 ) 单 选 按钮 组 ， 用 户 可 以 在 Simple( 简 单 ) 和 Advanced( 高 级 ) 
这 两 种 风格 中 选择 一 种 。 两 种 设置 都 能 让 用 户 设 置 在 一 台 本 地 计算 机 上 运行 的 标准 实验 ， 
或 者 在 多 台 主 机 之 间 分 配 计算 任务 的 远程 分 布 实验 。 分 布 实验 降低 了 运行 实验 所 占用 的 时 
间 ， 但 同时 也 需要 花费 更 多 的 时 间 进 行 设置 。 
除了 可 使 用 GUI， 实 验 者 界面 还 可 以 运行 在 简单 CLI 命令 行 中 。 例 如 ， 下 面 的 命令 可 
以 在 CLI 中 输入 ， 并 按 Enter 键 使 其 运行 。 该 命令 的 用 途 是 在 Iris 数据 集运 行 OneR 算 
法 ， 进 行 基 本 训练 和 测试 过 程 。 
java weka.experiment .Experiment -r -T data/iris.arff 
-D weka.experiment.InstancesResultListener 
-P weka.experiment .RandomSplitResultProducer —— 
-W weka.experiment .ClassifierSsplitEvaluator —— 
-W weka.classifiers.rules.OneR 
注意 ， 上 述 命令 必须 在 一 行内 输 完 ， 分 为 多 行 只 是 为 了 更 清楚 地 表示 命令 结构 。 
尽管 可 以 直接 将 命令 输入 CLI， 但 这 种 方式 使 用 并 不 方便 ， 也 不 容易 进行 修改 。 


4.2 标准 实验 


本 节 介 绍 标准 实验 ， 在 单 台 本 地 计算 机 上 对 简单 实验 和 高 级 实验 进行 设置 和 运行 ， 实 
验 结果 分 析 将 在 后 文 介绍 。 


4.2.1 简单 实验 
1. 实验 打开 、 保 存 和 新 建 
在 实验 者 的 设置 面板 中 ， 可 以 打开 、 保 存 和 新 建 实验 设置 ， 这 三 个 功能 对 应 设置 面板 


上 部 的 三 个 按钮 。 
如 果 要 新 建 一 个 实验 ， 请 单 击 New 按钮 ， 实 验 者 界面 使 用 默认 选项 创建 一 个 实验 ， 如 


图 4.2 所 示 。 注 意 到 实验 者 窗口 中 的 很 多 功能 现在 变 得 可 用 。 
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4.2 ”新建 实验 


由 于 很 多 实验 都 需要 繁杂 的 设置 ， 为 了 将 来 能 够 复 用 ， 可 以 将 当前 实验 设置 保存 为 文 
件 。 具 体 方法 是 : 单 击 Save 按钮 ， 会 弹出 标准 的 保存 文件 对 话 框 ， 如 图 4.3 所 示 。 
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4.3 ”保存 实验 设置 


实验 文件 的 默认 格式 是 Java 序列 化 二 进 制 格式 ， 其 文件 后 缀 为 .esp， 这 种 格式 的 缺点 
是 可 能 在 不 同 的 Weka 版 本 之 间 不 兼容 。 更 好 的 格式 是 XML 格式 ， 其 文件 后 绥 为 xml， 这 
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种 格式 在 不 同 Weka 版 本 中 兼容 性 更 好 。 

如 果 将 来 要 使 用 保存 的 实验 文件 ， 可 以 单 击 Open 按钮 打开 实验 文件 ， 在 以 前 工作 的 
基础 上 进一步 完善 实验 。 

2. 结果 目标 


Results destination( 结 果 目 标 ) 子 面板 设置 实验 结果 输出 的 目标 。 目 标 可 以 是 文件 ， 支 持 
ARFF file(ARFF 文件 ) 格 式 、CSV file(CSV 文件 ) 格 式 ， 也 可 以 是 JDBC database(JDBC 数据 
库 )， 默 认 格 式 为 ARFF。 可 使 用 下 拉 列 表 框 选择 实验 结果 目标 。 

如 果 目 标 文 件 名 为 空 ， 将 在 系统 临时 TEMP 目录 中 创建 一 个 临时 文件 。 如 果 用 户 要 明 
确 指定 结果 文件 ， 单 击 Browse( 浏 览 ) 按 钮 ， 在 弹出 的 标准 保存 文件 窗口 中 输入 一 个 文件 
名 ， 例 如 ，Experimentl.arff。 然 后 单 击 Save 按钮 ， 可 以 看 到 在 Filename 提示 的 右边 会 显 
示 带 路 径 的 文件 名 ， 如 图 4.4 所 示 。 
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4.4 保存 目标 文件 


CSV 格式 类 似 于 ARFF 格式 ，CSV 格式 可 用 外 部 电子 表格 应 用 程序 (如 MS Excel) 装 
载 ， 因 此 更 容易 阅读 。ARFF 格式 和 CSV 格式 文件 的 共同 优点 是 : 创建 这 些 文件 只 需要 
Weka 的 自 带 类 ， 不 需要 额外 类 ; 其 缺点 是 : 缺乏 从 中 断 的 实验 中 恢复 的 能 力 ， 例 如 ， 由 
于 产生 错误 、 添 加 数据 集 或 算法 时 导致 的 中 断 ， 如 果 在 这 种 情况 下 发 生 中 断 ， 就 只 能 重 做 
实验 。 尤 其 是 对 于 耗 时 的 实验 ， 这 种 缺点 很 突出 。 

使 用 JDBC 数据 库 连 接 ， 很 容易 将 结果 存储 到 数据 库 中 。 注 意 : 要 在 CLASSPATH 路 
径 中 添加 必要 数据 库 驱 动 jar 文件 信息 ， 使 得 Weka 能 够 使 用 特定 数据 库 的 JDBC 功能 。 

如 果 将 结果 目标 改 为 JDBC database(JDBC 数据 库 )， 输 入 框 前 面 的 提示 信息 将 从 
Filename 变 为 URL， 用 户 可 在 输入 框 中 输入 数据 库 URL， 并 且 浏 览 文件 的 Browse 按钮 会 
变 成 User 按钮 ， 单 击 该 按钮 可 以 设置 访问 数据 库 的 JDBC URL 和 用 户 凭据 。 如 图 4.5 所 
示 ， 在 提供 必要 参数 之 后 ， 单 击 OK 按钮 ， 设 置 面板 的 数据 库 URL 也 会 同步 更 新 。 
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图 4.5 数据 库 连 接 参数 
区 注意 :在 设置 数据 库 连接 参数 时 ， 并 不 会 测试 数据 库 连 接 。 只 有 在 启动 实验 运行 
时 ， 才 会 测试 数据 库 连 接 。 
JDBC 数据 库 的 优点 是 ， 增 加 从 中 断 的 实验 或 扩展 实验 中 恢复 的 可 能 性 。 不 再 需要 
新 再 次 运行 所 有 的 算法 和 数据 集 的 组 合 ， 而 是 仅 计算 短缺 的 那 部 分 算法 和 数据 集 。 
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3. 实验 类 型 
Experiment type( 实 验 类 型 ) 子 面板 设置 如 何 对 数据 集 进行 分 割 ， 以 及 实验 目标 是 分 类 还 
归 。 用 户 可 以 选择 以 下 三 种 类 型 之 一 。 
1) Cross-validation (交叉 验证 ) 
这 是 默认 类 型 。 执 行 指定 折 数 的 分 层 交 叉 验证 。 
2) Train/Test Percentage Split (data randomized)( 数 据 随 机 化 的 训练 /测试 按 百 分 比 拆 分 ) 
根据 给 定 的 百分比 将 数据 集 拆 分 成 训练 文件 和 测试 文件 ， 尽 管 在 该 实验 者 界面 中 不 能 
明确 指定 训练 文件 和 测试 文件 的 名 称 。 拆 分 后 ， 数 据 集 的 顺序 已 经 随机 重 排 并 分 层 。 

3) Train/Test Percentage Split (order preserved)( 保 持 数据 顺序 的 训练 /测试 按 百 分 比 拆 分 ) 

第 3) 种 类 型 与 第 2) 种 类 型 类 似 ， 只 是 保持 原来 的 数据 顺序 。 由 于 不 能 明确 指定 训练 文 
件 和 测试 文件 ， 有 人 可 能 滥用 这 种 类 型 ， 用 于 将 已 经 合并 过 的 数据 文件 ， 根 据 正确 的 百 分 
比 ， 复 原 为 原来 的 训练 和 测试 文件 。 

此 外 ， 根 据 所 使 用 的 数据 集 和 分 类 器 ， 用 户 可 以 在 单 选 按钮 组 中 选择 Classification( 分 
类 ) 还 是 Regression( 回 归 )， 默 认 选 项 为 分 类 。 主 要 根据 数据 集 的 类 别 属性 的 类 别 进行 选 
择 ， 如 果 是 离散 的 标 称 型 ， 就 是 分 类 问题 ， 如 果 是 连续 的 数值 型 ， 则 是 回归 问题 。 例 如 ， 
对 于 决策 树 算法 (如 J48) 应 用 于 高 尾 花 数 据 集 ， 应 该 使 用 分 类 ; 而 对 于 数值 分 类 器 算法 (如 
M5P)， 则 应 该 使 用 回归 。 

4. 迭代 控制 

Iteration control( 迁 代 控 制 ) 子 面板 用 于 设置 重复 迭代 次 数 ， 以 及 数据 集 优 先 还 是 算法 
优先 。 

Number of repetitions( 重 复 次 数 ) 输 入 框 设置 进 代 次 数 。 为 了 得 到 统计 学 上 有 意义 的 结 
果 ， 默 认 的 迭代 次 数 为 10。 对 于 十 折 交 叉 验 证 ， 这 意味 着 调用 一 个 分 类 器 100 次 ， 运 行 训 
练 数据 并 对 测试 数据 进行 测试 。 

Data sets first( 数 据 集 优先 ) 和 Algorithms first( 算 法 优先 ) 单 选 框 构成 一 个 单 选 按 钮 组 ， 
用 于 设置 这 两 者 究竟 何者 优先 。 只 要 有 一 个 以 上 的 数据 集 和 算法 ， 就 可 以 选择 是 优先 遍历 
数据 集 还 是 优先 遍历 算法 。 如 果 用 户 将 结果 存储 在 数据 库 中 ， 并 希望 尽早 完成 用 一 个 算法 
处 理 全 部 数据 集 的 结果 ， 可 选择 数据 集 优先 ， 反之 ， 则 选择 算法 优先 。 


5. 数据 集 


Datasets( 数 据 集 ) 子 面板 用 于 配置 数据 集 。 用 户 可 以 以 绝对 路 径 或 相对 路 径 来 添加 一 个 
或 多 个 数据 集 文件 。 相 对 路 径 往 往 更 容易 在 不 同 机 器 上 运行 实验 ， 因 此 ， 用 户 在 单 击 Add 
new 按钮 之 前 ， 最 好 先 选中 Use relative paths( 使 用 相对 路 径 ) 复 选 框 。 

先 打开 data 目录 并 选择 iris.arff 数据 集 ， 单 击 Open( 打 开 ) 按 钮 后 ， 文 件 将 显示 在 数据 
集 列 表 中 ， 如 图 4.6 所 示 。 如 果 用 户 选择 一 个 目录 并 单 击 Open 按钮 ， 那 么 将 递归 添加 目录 
中 所 有 的 ARFF 文件 。 可 以 编辑 数据 集 文 件 ， 具 体 步 骤 是 : 选择 要 编辑 的 文件 ， 然 后 单 击 
Edit selected( 编 辑 所 选 ) 按 钮 ， 就 会 打开 一 个 编辑 数据 集 文件 的 Viewer 窗口 。 删 除 文件 的 步 
又 是 : 选择 要 删除 的 文件 ， 然 后 单 击 Delete selected( 删 除 所 选 ) 按 钮 ， 就 会 从 列表 中 删除 数 
据 集 文件 。 
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4.6 选择 iris 数据 集 


Weka 实验 者 不 仅 能 加 载 ARFF 格式 文件 ， 还 能 支持 其 他 文件 格式 ， 如 : C4.5、 
CSV、libsvm、bsi( 二 进 制 序列 化 实例 ) 和 XRFF 格式 。 

默认 情况 下 ， 数 据 集中 的 最 后 一 个 属性 认为 是 类 别 属性 。 但 是 ， 如 果 数 据 格式 包含 了 
类 别 属性 的 信息 ， 如 : XRFF 和 C4.5， 就 使 用 数据 格式 里 明确 规定 的 类 别 属性 。 


6. 算法 
Algorithms( 算 法 ) 子 面板 用 于 配置 学 习 算法 。 
通过 单 击 Add new( 添 加 新 的 ) 按 钮 ， 可 以 添加 新 的 算法 。 如 果 是 第 一 次 打开 该 对 话 


图 4.7 选择 算法 


如 果 要 选择 其 他 的 分 类 器 ， 可 以 在 对 话 框 中 单 击 Choose( 选 择 ) 按 钮 打开 通用 对 象 编辑 
器 ， 并 选择 需要 的 分 类 器 ， 如 图 4.8 所 示 。 选 择 完成 后 ， 单 击 OK 按钮 完成 添加 。 


区 


4.8 选择 其 他 分 类 器 


如 果 还 需要 添加 其 他 算法 ， 请 再 次 单 击 Add new... 按 钮 进行 添加 ， 如 图 4.9 显示 了 添加 
J48 决策 树 要 配置 的 选项 。 
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图 4.9 添加 J48 决策 树 

完成 分 类 器 的 选项 设置 后 ， 单 击 OK 按钮 将 其 添加 到 算法 列表 中 ， 如 图 4.10 所 示 。 
Add new 按钮 旁边 还 有 两 个 按钮 : Edit selected( 编 辑 所 选 ) 按 钮 ， 用 于 编辑 算法 的 选项 ; 
Delete selected( 删 除 所 选 ) 按 钮 ， 用 于 删除 选中 的 算法 。 


图 4.10 添加 两 个 学 习 算 法 


使 用 Load options( 加 载 选项 ) 按 钮 可 以 将 选中 的 分 类 器 设置 从 XML 文件 进行 加 载 ， 使 
用 Save options( 保 存 选 项 ) 按 钮 可 以 将 分 类 器 设置 保存 到 XML 文件 中 。 这 对 于 需要 复杂 配 
置 的 分 类 器 (如 嵌 套 元 分 类 器 ) 来 说 特别 有 用 ， 节 省 了 手动 设置 需要 占用 的 一 段 时 间 ， 这 上 段 
时 间 一 般 相当 长 并 且 会 经 常 使 用 。 

通过 右 击 (或 AlttShiftt 单 击 ) 算 法 列表 ， 并 从 弹出 的 菜单 中 选择 相应 的 菜单 项 ， 用 户 可 
以 粘贴 分 类 器 设置 ， 也 可 以 添加 新 的 分 类 器 ， 或 者 更 改选 中 分 类 器 的 设置 。 如 果 要 从 
Weka 探索 者 界面 中 将 分 类 器 设置 直接 复制 到 实验 者 界面 ， 这 非常 有 用 ， 比 从 头 开 始 设置 
分 类 器 要 方便 得 多 。 

设置 面板 的 下 部 还 有 两 对 Up 按钮 和 Down 按钮 ， 分 别 用 于 对 数据 集 和 算法 进行 


排序 。 
设置 面板 的 最 下 面 还 有 一 个 Notes( 注 解 ) 按 钮 ， 单 击 该 按钮 会 打开 一 个 编辑 器 窗口 ， 用 


到 池 Jelueuledxd 贡 了 小 lie 


© 


Y 


数据 挖掘 写 机 器 学 习 
一 一 WEKA 应 用 所 术 与 实 吏 A 


户 可 以 对 设置 写 一 些 文字 以 帮助 回忆 。 

7. 运行 实验 

要 运行 当前 的 实验 ， 单 击 实验 环境 窗口 顶部 的 Run( 运 行 ) 标 签 页 ， 切 换 至 运行 面板 。 
当前 实验 使 用 ZeroR 和 J48 学 习 方案 ， 对 蕊 尾 花 数 据 集运 行 10 次 十 折 分 层 交叉 验证 。 

单 击 Start 按钮 启动 实验 。 如 果实 验 设置 正确 ， 在 Log 面板 会 显示 三 条 消息 (实验 开始 
时 间 ， 实 验 结束 时 间 ， 出 了 多 少 个 错误 )， 实 验 结果 会 保存 到 Experimentl.arff 文件 中 ， 如 
4.11 所 示 。 


图 4.11 运行 结果 
读者 可 自行 打开 所 保存 的 实验 文件 ， 探 索 其 文件 结构 ， 后 文 详细 讲述 如 何 对 实验 结果 
进行 分 析 。 
4.2.2 ”高 级 实验 
1. 高 级 实验 模式 


在 Setup 面板 顶部 选中 Advanced 单 选 按钮 ， 启 动 高 级 实验 模式 。 单 击 New 按钮 初始 
化 实验 ， 使 用 默认 参数 设置 实验 ， 如 图 4.12 所 示 。 


4.12 ”新 建 高 级 实验 


设置 面板 上 部 的 Open 按钮 、Save 按钮 和 New 按钮 的 功能 与 简单 实验 一 样 ， 不 重复 
说 明 。 

2. 目标 

Destination( 目 标 ) 子 面板 保存 实验 结果 。 单 击 设置 面板 中 Destination 子 面板 Choose 按 


钮 ， 会 弹出 一 个 如 图 4.13 所 示 的 选择 菜单 ， 选 择 结果 监听 器 。 
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4.13 选择 结果 监听 器 


有 三 种 结果 监听 器 可 用 一 一 InstancesResultListener( 默 认 监 听 器 )、CSVResultListener 和 
DatabaseResultListener。 

1) InstancesResultListener 结果 监听 器 

将 接收 到 的 结果 以 ARFF 格式 输出 到 一 个 写 入 器 (WriteD。 在 将 实例 结果 写 入 之 前 ， 必 
须 收 到 所 有 的 结果 。 

可 视 化 参数 : 

outputFile( 输 出 文件 ): 保存 的 文件 。 使 用 “-” 表 示 写 入 到 标准 输出 。 

2) CSVResultListener 结果 监听 器 

从 结果 产生 器 得 到 结果 ， 然 后 将 它们 组 装 成 逗号 分 隔 值 的 形式 。 

可 视 化 参数 : 

outputFile( 输 出 文件 ): 保存 的 文件 。 使 用 “-” 表 示 写 入 到 标准 输出 。 

3) DatabaseResultListener 结果 监听 器 

从 结果 产生 器 得 到 结果 ， 然 后 发 送 至 数据 库 。 

可 视 化 参数 : 

e cacheKeyName( 缓 存 主键 名 称 ): 设置 主键 字段 名 称 ， 以 便 缓存 。 
databaseURL( 数 据 库 URL): 设置 数据 库 URL。 
Debug( 调 试 ): 是 否 打 印 调试 信息 。 
keywords( 关 键 字 ): SQL 语句 关键 字 。 
keywordsMaskChar( 关 键 字 屏蔽 字符 ): 关键 字 屏 蔽 字符 ， 默 认为 “”。 
password( 密 码 ): 用 于 连接 到 数据 库 的 密码 。 

e usermame( 用 户 名 ): 用 于 连接 到 数据 库 的 用 户 名 。 

单 击 Choose 按钮 右边 的 输入 框 ， 打 开 Weka 通用 对 象 编辑 器 对 话 框 ， 设 置 结果 监听 器 
的 选项 。 例 如 ， 在 图 4.14 所 示 的 对 话 框 中 可 以 指定 接受 输出 结果 的 数据 集 文件 。 提 示 文 字 
为 outputFile 的 输入 框 中 显示 的 当前 指定 输出 文件 名 称 。 

单 击 outputFile 输入 框 ， 会 弹出 一 个 文件 编辑 器 对 话 框 ， 在 窗口 中 可 以 修改 输出 文件 
名 称 。 如 图 4.15 所 示 ， 输 入 输出 文件 名 称 并 单 击 Select 按钮 ， 文 件 名 称 会 显示 在 
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outputFile 后 的 输入 框 中 ， 单 击 OK 按钮 关闭 该 窗口 。 设 置 面板 的 Destination 子 面板 会 
更 新 后 的 数据 集 文件 名 称 。 
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图 4.15 修改 输出 文件 名 称 
3. 结果 产生 器 


Result generator( 结 果 产 生 器 ) 子 面板 用 于 选择 结果 产生 器 。 单 击 Choose 按钮 ， 会 弹出 
一 个 如 图 4.16 所 示 的 选择 菜单 ， 选 择 结果 产生 器 。 


图 4.16 选择 结果 产生 器 
Weka 提供 以 下 七 种 结果 产生 器 。 


1) AveragingResultProducer 结果 产生 器 


从 结果 产生 器 获取 结果 并 将 其 平均 后 提交 给 结果 监听 器 。 通 常 与 CrossValidationResultProducer 
一 同 使 用 ， 执 行 n x m 的 交叉 验证 。 对 于 非 数 值 的 结果 字段 ， 使 用 第 一 个 值 。 
Y 


可 视 化 参数 : 

e ”calculateStdDevs( 计 算 标 准 偏差 );， 记录 每 次 运行 的 标准 偏差 。 

e@ expectedResultsPerAverage( 每 轮 平均 的 预期 结果 ): 设置 每 轮 运行 的 用 于 平均 的 预 
期 结果 数量 。 例 如 ， 如 果 正 在 使 用 一 个 折 数 设置 为 10 的 
CrossValidationResultProducer， 那 么 每 轮 运行 预期 的 结果 数 是 10。 

e@ ”keyFieldName( 关 键 字 段 名 ): 设置 每 轮 运行 的 唯一 字段 名 。 

e@ “resultProducer( 结 果 产 生 器 ): 设置 将 其 结果 进行 平均 的 结果 产生 器 。 

2) CrossValidationResultProducer 结果 产生 器 

在 每 轮 运行 时 生成 ， 执 行 n 折 交 叉 验 证 ， 使 用 splitEvaluator 的 设置 产生 一 些 结果 。 如 

果 类 别 属性 是 标 称 型 ， 则 数据 集会 分 层 。 该 结果 产生 器 产生 每 折 的 结果 ， 因 此 用 户 可 能 
望 与 AveragingResultProducer 一 同 使 用 ， 以 获得 每 轮 运行 的 平均 结果 。 

可 视 化 参数 : 

e ”numFolds( 折 数 ): 用 于 交叉 验证 的 折 数 。 

e “outputFile( 输 出 文件 ): 设置 保存 原始 输出 的 目标 。 如 果 选 中 rawOutput 选项 ， 则 
保存 从 splitEvaluator 输出 的 每 个 折 。 如 果 目 标 是 一 个 目录 ， 则 每 个 输出 保存 为 一 
个 单独 的 gzip 文件 ， 如 果 目 标 是 一 个 文件 ， 则 每 个 输出 保存 为 zip 文件 中 的 一 个 
条 目 。 

e IawOutput( 原 始 输出 ): 保存 原始 输出 ， 调 试 时 很 有 用 。 如 果 设 置 为 True， 则 将 输 
出 发 送 到 outputFile 选项 指定 的 目标 。 

e@ splitEvaluator( 拆 分 评估 器 ): 应 用 于 交叉 验证 折 的 评估 器 。 这 可 以 是 一 个 分 类 器 、 

回归 方案 等 。 

3) CrossValidationSplitResultProducer 结果 产生 器 

执行 重复 k- 折 交叉 验证 的 一 个 拆 分 ， 使 用 splitEvaluator 的 设置 产生 一 些 结 果 。 需 要 注 

意 的 是 ， 运 行 次 数 实 际 上 是 重复 k- 折 交叉 验证 的 第 个 拆 分 ， 即 ， 如 果 丰 =10， 运 行 第 100 
次 就 是 运行 第 10 次 交叉 验证 的 第 10 折 。 产 生 器 的 唯一 目的 是 使 交叉 验证 实验 有 更 细 粒 度 
的 分 布 。 如 果 类 别 属性 为 标 称 型 ， 数 据 集会 分 层 。 

可 视 化 参数 : 

e ”numFolds( 折 数 )， 用 于 交叉 验证 的 折 数 。 

e ”outputFile( 输 出 文件 ): 设置 保存 原始 输出 的 目标 。 如 果 选 中 rawOutput 选项 ， 则 
保存 从 splitEvaluator 输出 的 每 个 折 。 如 果 目 标 是 一 个 目录 ， 则 每 个 输出 保存 为 一 
个 单独 的 gzip 文件 ， 如 果 目 标 是 一 个 文件 ， 则 每 个 输出 保存 为 zip 文件 中 的 一 个 
条 目 。 

e ”rawOutput( 原 始 输出 ): 保存 原始 输出 ， 调 试 时 很 有 用 。 如 果 设 置 为 True， 则 将 输 
出 发 送 到 outputFile 选项 指定 的 目标 。 

®@ splitEvaluator( 拆 分 评估 器 ): 应 用 于 交叉 验证 折 的 评估 器 。 这 可 以 是 一 个 分 类 器 、 

回归 方案 等 。 

4) DatabaseResultProducer 结果 产生 器 

检查 数据 库 ， 提 取 指 定 的 resultProducer 所 产生 的 结果 ， 并 提交 给 指定 结果 监听 器 。 如 

果 需 要 产生 结果 ， 结 果 产 生 器 用 于 获取 结果 。 


隔 泗 Jelueuluedxd 旭 ? 汕 4 


Or 


数据 挖掘 与 机 器 学 习 
一 一 WEKA 应 用 技术 与 嘉 葡 \ 


可 视 化 参数 : 


cacheKeyName( 绥 存 主键 名 称 ): 设置 主键 字段 名 称 ， 以 便 缓存 。 

databaseURI (数据 库 URL): 设置 数据 库 URL。 

debug( 调 试 ): 是 否 打 印 调试 信息 。 

keywords( 关 键 字 ): SQL 语句 关键 字 。 

keywordsMaskChar( 关 键 字 屏 项 字符 ): 关键 字 屏 蔽 字符 ， 默 认为 “”。 
password( 密 码 ): 用 于 连接 到 数据 库 的 密码 。 

resultProducer( 结 果 产 生 器 ): 设置 要 使 用 的 结果 产生 器 。 如 果 在 源 数据 库 中 没有 
发 现 某 些 结果 ， 那 么 就 用 该 结果 产生 器 来 生成 这 些 结果 。 

username( 用 户 名 ): 用 于 连接 到 数据 库 的 用 户 名 。 


5) ExplicitTestsetResultProducer 结果 产生 器 

加 载 外 部 测试 集 ， 并 调用 相应 的 SplitEvaluator 产生 一 些 结果 。 

测试 集 的 文件 名 按 如 下 格式 构造 : 

<dir> + / + <prefix> + <relation-name> + <suffix> 

关系 名 称 可 以 通过 使 用 正则 表达 式 ， 用 指定 的 替换 字符 串 蔡 换 匹配 的 子 串 来 进行 修 
改 。 为 了 去 除 Weka 过 滤器 添加 到 关系 名 末尾 的 字符 串 ， 请 使 用 “.*-weka” 正 则 表达 式 


查找 。 


后 级 确定 要 加 载 的 文件 类 型 ， 即 不 限于 ARFF 文件 。 只 要 Weka 能 够 识别 指定 后 缀 中 
的 扩展 名 ， 就 会 用 适当 的 Weka 转换 器 来 加 载 数据 。 
可 视 化 参数 : 


outputFile( 输 出 文件 ): 设置 保存 原始 输出 的 目标 。 如 果 选 中 rawOutput 选项 ， 则 
保存 从 splitEvaluator 输出 的 单个 训练 -测试 划分 。 如 果 目 标 是 一 个 目录 ， 则 每 个 
输出 保存 为 一 个 单独 的 gzip 文件 ， 如 果 目 标 是 一 个 文件 ， 则 每 个 输出 保存 为 zip 
文件 中 的 一 个 条 目 。 

randomizeData( 随 机 化 数据 ): 如 果 为 false， 则 不 执行 随机 化 数据 集 ， 也 不 执行 概 
率 四 舍 五 入 。 

IawOutput( 原 始 输出 ): 保存 原始 输出 ， 调 试 时 很 有 用 。 如 果 设 置 为 True， 则 将 输 
出 发 送 到 outputFile 选项 指定 的 目标 。 

relationFind( 关 系 查 找 ): 用 于 去 除 部 分 关系 名 的 正则 表达 式 ， 如 果 为 空 则 忽略 。 
relationReplace( 关 系 替 换 ): 用 于 替换 所 有 匹配 的 正则 表达 式 的 字符 串 。 
splitEvaluator( 拆 分 评估 器 ): 应 用 于 测试 数据 的 评估 器 ， 这 可 以 是 一 个 分 类 器 、 回 
归 方 案 等 。 

testsetDir( 测 试 集 目录 ): 包含 测试 集 的 目录 。 

testsetPrefix( 测 试 集 前 级 ): 测试 集 文件 名 使 用 的 前 组 。 

testsetSuffix( 测 试 集 后 级 ): 测试 集 文件 名 使 用 的 后 级 ， 必 须 包含 文件 扩展 名 。 


6) LearningRateResultProducer 结果 产生 器 
告诉 子 结果 产生 器 重 现 当前 运行 数据 集 的 不 同 大 小 的 子 样本 。 通 常 与 AveragingResultProducer 
和 CrossValidationResultProducer 一 同 使 用 ， 以 产生 学 习 曲 线 结果 。 对 于 非 数值 的 结果 字 


段 ， 使 用 


Y 


第 一 个 值 。 


可 视 化 参数 : 
e@ ”lowerSize( 下 限 ): 设置 数据 集中 的 实例 的 最 小 数量 。 这 里 如 果 设 置 为 零 ， 实 际 上 
在 第 一 步 使 用 <stepSize> 个 实例 (因为 使 用 零 个 实例 没有 意义 )。 
e@ ”resultProducer( 结 果 产 生 器 ): 设置 产生 学 习 率 结果 的 结果 产生 器 。 
e@ ”stepSize( 步 长 ): 设置 每 一 步 增加 的 实例 数量 。 
e ”upperSize( 上 限 ): 设置 数据 集中 的 实例 的 最 大 数量 。 值 为 -1 表示 无 上 限 。 
7) RandomSplitResultProducer 结果 产生 器 
产生 单个 的 训练 /测试 拆 分 ， 并 调用 适当 的 SplitEvaluator 产生 了 一 定 结果 。 
可 视 化 参数 : 
。 ”outputFile( 输 出 文件 ): 设置 保存 原始 输出 的 目标 。 如 果 选 中 rawOutput 选项 ， 则 
保存 从 splitEvaluator 输出 单个 训练 一 测试 划分 。 如 果 目 标 是 一 个 目录 ， 则 每 个 输 
出 保存 为 一 个 单独 的 gzip 文件 ， 如 果 目 标 是 一 个 文件 ， 则 每 个 输出 保存 为 zip 文 
件 中 的 一 个 条 目 。 
e@ randomizeData( 随 机 化 数据 ): 如 果 为 false， 则 不 随机 化 数据 集 ， 也 不 执行 概率 
四 舍 五 入 。 
e rawOutput( 原 始 输出 ): 保存 原始 输出 ， 调 试 时 很 有 用 。 如 果 设 置 为 True， 则 将 输 
出 发 送 到 outputFile 选项 指定 的 目标 。 
e@ splitEvaluator( 拆 分 评估 器 ): 应 用 于 测试 数据 的 评估 器 。 这 可 以 是 一 个 分 类 器 、 回 
归 方 案 等 。 
e@ ”trainPercent( 训 练 百 分 比 ): 设置 用 于 训练 的 数据 百分比 。 
由 于 结果 产生 器 可 选 的 种 类 较 多 (七 种 )， 每 种 的 配置 不 尽 相 同 ， 因 此 在 下 一 节 中 针对 
一 两 种 配置 进行 说 明 。 
4. 运行 
Runs( 运 行 ) 子 面板 指定 实验 运行 次 数 。 该 子 面板 比较 简单 ，From 指定 起 始 运 行 的 次 
数 ，To 指定 终止 运行 的 次 数 。 为 了 得 到 统计 学 上 有 意义 的 结果 ， 默 认 的 迭代 次 数 为 10。 
对 于 十 折 交 叉 验 证 ， 这 意味 着 调用 一 个 分 类 器 100 次 ,运行 训练 数据 并 对 测试 数据 进行 
测试 。 
分 布 实 验 子 面板 留待 后 文 讲述 。 
5. 迭代 控制 
Iteration control( 从 代 控 制 ) 子 面板 用 于 设置 是 数据 集 优 先 还 是 用 户 定制 产生 器 优先 。 
Data sets first( 数 据 集 优先 ) 和 Custom generator first( 用 户 定 制 产 生 器 优先 ) 单 选 按钮 构成 
一 个 单 选 按钮 组 ， 用 于 设置 这 两 者 究竟 何者 优先 。 只 要 有 一 个 以 上 的 数据 集 和 用 户 定 制 产 
生 器 ， 就 可 以 选择 优先 遍历 数据 集 还 是 优先 遍历 产生 器 。 如 果 用 户 将 结果 存储 在 数据 库 
中 ， 并 希望 尽早 完成 用 一 个 算法 处 理 全 部 数据 集 的 结果 ， 可 选择 数据 集 优先 反之， 则 选 
择 用 户 定制 产生 器 优先 。 


6. 数据 集 
Datasets( 数 据 集 ) 子 面板 用 于 定义 学 习 算 法 要 处 理 的 数据 集 ， 首 先 选中 Use relative 


到 池 Jelueuledxd 贡 了 小 li 


@« 


@« 


数据 挖掘 写 机 器 学 习 
一 一 WEKA 应 用 扫 术 与 实 吏 A 


paths( 使 用 相对 路 径 ) 复 选 框 ， 然 后 单 击 Add new 按钮 弹出 标准 打开 文件 对 话 框 。 双 击 data 
目录 ， 查 看 Weka 自 带 的 数据 集 ， 也 可 以 浏览 到 其 他 数据 集 所 在 目录 。 这 里 选择 iris.arff 文 
件 ， 并 单 击 Open 按钮 打开 竟 尾 花 数据 集 。 数 据 集 名 称 就 会 显示 在 数据 集 子 面板 中 ， 如 
图 4.17 所 示 。 


4.17 打开 营 尾 花 数据 集 


如 果 还 想 添加 其 他 数据 集 ， 可 再 次 单 击 Add new 按钮 。 

此 外 ， 如 果 要 编辑 某 个 数据 集 ， 可 先 选中 该 数据 集 ， 然 后 单 击 Edit selected( 编 辑 所 选 ) 
按钮 ， 如 图 4.18 所 示 。 如 果 不 使 用 某 个 数据 集 ， 可 先 选中 该 数据 集 ， 然 后 单 击 Delete 
selected( 删 除 所 选 ) 按 钮 以 删除 所 选 的 数据 集 。 
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图 4.18 ”编辑 数据 集 
7. 产生 器 特性 


Generator properties( 产 生 器 特性 ) 子 面板 用 于 添加 额外 的 算 
法 。 首 先 ， 单 击 显示 为 Disabled 的 下 拉 列 表 框 ， 修 改 为 
Enabled。 这 时 ，Weka 会 弹出 如 图 4.19 所 示 的 选择 特性 对 话 框 。 a 

展开 splitEvaluator 并 选择 classifier 条 目 ， 然 后 单 击 Select rr 
按钮 ， 可 以 看 到 默认 的 方案 名 称 已 经 显示 在 Generator properties 。 到 
子 面板 中 ， 如 图 4.20 所 示 。 

如 果 要 添加 其 他 方案 ， 单 击 Choose 按钮 以 显示 通用 对 象 纺 
辑 窗 口 。 假 如 要 添加 J48 决策 树 方案 ， 选 择 trees 条 目下 的 J48 i 
组 件 ， 单 击 ， 新 方案 已 经 添加 到 Generator properties 子 面板 。 然 ” 图 4.19 选择 特性 对 话 杠 


后 单 击 Add 按钮 添加 新 方案 ， 如 图 4.21 所 示 。 
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图 4.20 产生 器 属性 子 面板 图 4.21 添加 J48 方 案 


当 运 行 实验 时 ， 会 为 所 添加 的 两 个 方案 产生 结果 。 

如 果 还 需要 添加 额外 方案 ， 重 复 上 述 过程 。 如 果 要 删除 方案 ， 单 击 并 选择 要 删除 的 方 
案 ， 然 后 单 击 Delete 按钮 。Edit 按钮 可 以 修改 方案 参数 ，Up 按钮 和 Down 按钮 可 以 对 多 
个 方案 进行 排序 。 

8. 运行 实验 

高 级 实验 与 简单 实验 只 是 在 设置 面板 上 有 所 区 别 ， 在 运行 面板 上 没有 任何 区 别 。 高 级 
实验 中 的 运行 实验 的 方法 与 简单 实验 中 没有 什么 不 同 ， 这 里 就 不 再 效 述 了 。 


4.2.3 手把手 教 你 


1. 简单 实验 初步 

本 示例 使 用 交尾 花 数 据 集 ， 比 较 J48 决策 树 算法 和 作为 基线 算法 的 OneR 和 ZeroR 算法 。 

首先 启动 实验 者 界面 ， 单 击 窗口 右上 部 的 New 按钮 ， 可 以 看 到 实验 者 界面 的 大 部 分 功 
能 变 得 可 用 。 然 后 ， 在 Result Destination 子 面板 中 ， 选 择 文件 格式 为 CSV file， 单 击 同一 
行 最 右边 的 Browse 按钮 ， 打 开标 准 的 保存 文件 对 话 框 ， 选 择 目标 目录 ， 在 “文件 名 ” 提 
示 的 单行 编辑 器 中 输入 文件 名 为 Experiment1， 文 件 类 型 保持 为 Comma separated value 
名 es( 喜 号 分 隔 值 文件 )， 然 后 ， 单 击 “ 保 存 ” 按 钮 保存 文件 ， 如 图 4.22 所 示 。 
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4.22 保存 文件 
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后 一 步 是 选择 数据 集 。 首 先 选中 Datasets 子 面板 下 的 Use relative paths 复 选 框 ， 然 后 
单 击 Add new 按钮 ， 选 择 data/iris.arff 文件 。 在 窗口 右 下 部 的 Algorithms 子 面板 中 ， 单 击 
Add new 按钮 ， 会 弹出 一 个 标准 的 Weka 对 象 编辑 器 窗口 ， 先 选择 J48 决策 树 ， 保 持 分 类 
器 的 默认 选项 不 变 ， 然 后 选择 OneR 和 ZeroR 分 类 器 ， 现 在 已 经 设置 好 了 一 个 简单 的 实 
验 ， 如 图 4.23 所 示 。 


pm 


4.23 设置 完毕 的 实验 


现在 可 以 先 测试 一 下 保存 实验 设置 ， 单 击 Save 按钮 保存 实验 设置 ， 然 后 关闭 再 重新 打 
开 实 验 者 界面 ， 单 击 Open 按钮 打开 刚才 保存 的 实验 设置 ， 界 面 应 该 恢复 成 图 4.23 的 原样 。 

下 一 步 是 运行 实验 ， 单 击 Run 标签 页 切换 至 运行 面板 。 单 击 Start 按钮 启动 实验 的 运 
行 。 稍 等 片刻 ，Log 提示 的 多 行 编辑 器 中 就 会 出 现 三 条 信息 ， 同 时 ， 在 Weka 安装 目录 的 
output 子 目 录 中 生成 一 个 名 称 为 Experimentl.csv 的 文件 ， 其 内 容 为 实验 结果 。CSV 格式 的 
文件 可 以 直接 用 电子 表格 软件 打开 ， 如 图 4.24 所 示 。 
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4.24 ”实验 结果 文件 


2. 使 用 数据 库 


本 示例 展示 如 何 使 用 数据 库存 储 实验 结果 。 

在 实验 之 前 ， 一 定 要 按照 本 书 第 一 章 “ 访 问 数据 库 ” 的 内 容 配置 DatabaseUtils.props 
文件 ， 否 则 无 法 访问 数据 库 。 

首先 启动 实验 者 界面 ， 单 击 窗口 右上 部 的 New 按钮 ， 在 Result Destination 子 面板 中 ， 
单 击 下 拉 列 表 框 ， 将 结果 目标 修改 为 DBC database。 然 后 ， 单 击 User 按钮 ， 在 弹出 窗 
中 设置 数据 库 连 接 参 数 ， 如 图 4.25 所 示 。 这 里 的 数据 库 URL、 用 户 名 和 密码 要 根据 自己 
计算 机 的 设置 来 配置 。 

单 击 OK 按钮 关闭 数据 库 连接 参数 窗口 。 即 使 数据 库 参 数 设 置 有 误 ， 这 时 也 不 会 有 任 
何 提示 ，Weka 在 运行 实验 时 才 会 去 尝试 连接 数据 库 ， 那 时 才 会 报错 。 
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图 4.25 设置 数据 库 连 接 参 数 
按照 上 一 个 示例 的 方法 设置 实验 者 Setup 面板 的 其 他 选项 ， 完 成 后 的 对 话 框 如 图 4.26 
所 示 。 


图 4.26 完成 其 他 设置 
单 击 Run 标签 页 切换 至 运行 面板 。 单 击 Start 按钮 启动 实验 的 运行 ， 注 意 观 察 运行 面 
板 下 面 的 状态 栏 。 待 运行 完毕 后 ， 用 Navicat 或 其 他 工具 打开 数据 库 ， 可 以 看 到 数据 库 中 
已 经 生成 的 两 个 表 ， 如 图 4.27 所 示 。 


4.27 ”数据库 中 生成 的 两 个 表 


分 别 打开 两 个 表 进 行 研究 ， 不 难看 出 expriment index 表 记 录 运 行 的 基本 信息 ， 每 次 运 
行 ， 该 表 就 会 添加 一 条 记录 ， 记 录 实 验 类 型 、 设 置 以 及 结果 表 的 序号 ， 当 前 的 序号 为 0， 
表示 结果 表 的 名 称 为 result0， 如 果 再 次 运行 其 他 实验 ， 结 果 表 名 称 就 会 按照 resultl、 
result2… 顺 序 命名 。 打 开 result0 表 ， 可 以 看 到 共有 300 条 记录 ， 每 条 记录 代表 实验 的 一 次 
运行 ， 如 图 4.28 所 示 。 

3. 高 级 实验 初步 

本 示例 展示 如 何 使 用 Weka 实验 者 的 高 级 实验 模式 。 

首先 启动 实验 者 界面 ， 单 击 Advanced 单 选 框 切换 至 高 级 模式 ， 单 击 New 按钮 初始 化 
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实验 ， 这 使 得 Weka 实验 者 以 默认 参数 定义 实验 。 


4.28 ” 表 内 容 


下 一 步 定 义 方案 处 理 的 数据 集 。 首 先 在 Datasets 子 面板 中 选中 Use relative paths 复 选 
框 ， 然 后 单 击 Add new 按钮 ， 在 打开 的 标准 打开 文件 对 话 框 中 选择 iris.arff 数据 文件 。 这 
时 ，Datasets 子 面板 会 显示 打开 的 数据 集 名 称 。 

下 一 步 设置 保存 实验 结果 。 为 了 指定 将 实验 结果 发 送 到 的 目标 ， 单 击 Destination 子 面 
板 的 默认 InstancesResultListener 条 目 ， 弹 出 如 图 4.29 所 示 的 对 象 编辑 器 对 话 框 ，outputFile 
文本 框 显示 输出 文件 参数 。 


ass es 


an erperinent TasteesgesaltListener 


es 
Outputs the received results in arf format to a Writer Eee 


TY 


[er [er | es | er 


4.29 输出 文件 参数 


单 击 输出 文件 参数 文本 框 ， 会 打开 一 个 文件 编辑 窗口 ， 默 认 的 目标 文件 目录 是 系统 的 
临时 目录 。 可 以 导航 至 自己 希望 的 目标 目录 ， 并 且 在 “文件 名 ”提示 的 文本 框 中 输入 目标 
文件 名 为 Experimentl.arff， 如 图 4.30 所 示 。 单 击 Select 按钮 选中 目标 文件 ， 单 击 OK 按钮 
关闭 对 象 编辑 器 窗口 。 可 以 看 到 Destination 子 面板 显示 了 选择 的 目标 文件 。 
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4.30 设置 输出 文件 


现在 可 以 尝试 运行 一 下 实验 。 切 换 至 Run 面板 ， 当 前 实验 针对 iris 数据 集 完 成 10 次 
随机 化 训练 和 测试 运行 ， 使 用 ZeroR 方案 ， 将 66% 的 数据 集 用 于 训练 ，34% 的 数据 集 用 于 
测试 。 单 击 Start 按钮 运行 实验 ，Log 子 面 板 应 该 显示 三 条 信息 ， 表 示 实 验 运行 成 功 ， 并 且 


区 


将 实验 结果 保存 到 Experimentl.ar 企 文件 。 读 者 可 使 用 任意 文本 编辑 器 打开 该 文件 ， 了 解 实 


验 结果 的 格式 。 
下 一 步 是 改变 实验 参数 。 首 先 改 变 分 类 器 ， 然 后 增加 额外 学 习 方案 ， 最 后 检查 原始 输 
下 面 详细 讲述 这 三 个 步骤 。 

单 击 Result generator 子 面板 下 的 输入 框 ，Weka 会 弹出 如 图 4.31 所 示 的 通用 对 象 编辑 
器 对 话 框 ， 可 以 更 改 实验 参数 。 
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4.31 通用 对 象 编辑 器 对 话 框 


当前 使 用 的 结果 产生 器 是 RandomSplitResultProducer， 其 功能 是 生成 一 个 单独 的 训练 
集 和 测试 集 的 拆 分 ， 调 用 适当 的 SplitEvaluator( 拆 分 评估 器 ) 以 产生 一 定 结果 。 可 以 设置 五 
个 参数 ， 其 中 ，outputFile 参数 设置 保存 原始 输出 的 目标 文件 ， 以 备 将 来 使 用 ， 默 认 的 输出 
目标 文件 为 splitEvaluatorOut.zip。 如 果 设 置 rawOutput 选项 为 Tme， 则 将 保存 从 
splitEvaluator 输出 单独 的 训练 一 测试 拆 分 。 如 果 目 标 为 一 个 目录 ， 那 么 每 个 输出 保存 为 一 
个 单独 的 gzip 文件 ， 如 果 目 标 为 一 个 文件 ， 那 么 每 个 输出 保存 为 zip 文件 中 的 一 个 条 目 。 
randomizeData 参数 是 布尔 型 ， 如 果 为 False， 则 不 对 数据 集 进行 随机 化 ， 且 不 执行 概率 的 
四 使 五 入 。rawOutput 参数 保存 原始 输出 ， 在 调试 时 十 分 有 用 ， 如 果 设 置 该 参数 ， 则 将 输 
出 发 送 到 outputFile 参数 指定 的 目的 地 文件 。splitEvaluator 参数 是 应 用 测试 数据 的 评估 
器 ， 也 可 以 是 分 类 器 、 回 归 算法 等 。trainPercent 参数 设置 用 于 训练 的 数据 百分比 ， 注 意 到 
运行 次 数 不 在 本 面板 中 设 定 ， 而 是 在 设置 面板 的 Runs 子 面板 中 设 定 。 

如 果 想 查阅 结果 产生 器 的 功能 和 用 法 ， 可 以 单 击 图 4.31 中 的 More 按钮 。 

单 击 splitEvaluator 参数 条 目 ， 会 弹出 一 个 通用 对 象 编辑 器 ， 用 户 可 以 修改 拆 分 评估 器 
的 参数 ， 如 图 4.32 所 示 。 
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4.32 ” 拆 分 评估 器 参数 
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在 图 4.32 中 ，ClassifierSplitEvaluator 是 分 类 器 的 拆 分 评估 器 ， 它 对 标 称 类 别 属性 的 分 
类 算法 产生 的 结果 进行 评估 。 其 中 ，Classifier 参数 指定 所 使 用 的 分 类 器 ， 如 果 设 置 
noSizeDetermination 参数 为 True， 将 忽略 训练 /测试 /分 类 器 的 大 小 判定 。 

classifier 参数 条 目 指定 所 使 用 的 分 类 器 ， 这 里 默认 的 分 类 算法 为 ZeroR， 单 击 Choose 
按钮 ， 可 以 选择 不 同 的 分 类 算法 。 如 果 单 击 该 按钮 旁边 的 输入 框 ， 就 可 以 在 通用 对 象 编辑 
器 中 变更 算法 的 参数 。 在 这 里 ，ZeroR 算法 除了 可 开启 或 关闭 debug 模式 ， 没 有 其 他 可 修 
改 的 属性 。 但 大 多 数 算法 ， 都 可 以 由 用 户 修改 其 属性 ， 比 如 J48 决策 树 算法 ， 可 以 修改 多 
个 参数 。 这 里 将 分 类 算法 更 改 为 48， 然 后 单 击 OK 按钮 以 关闭 该 窗口 。 

修改 完毕 后 ，Result generator 子 面板 中 就 会 显示 新 的 实验 参数 方案 。 

下 面 添加 额外 的 学 习 方案 。 按 照 上 一 节 “ 产 生 器 特性 ”所 述 的 方法 ， 添 加 ZeroR 和 
J48 学 习 方 案 ， 添 加 完毕 后 的 界面 如 图 4.33 所 示 。 


图 4.33 添加 额外 的 学 习 方 案 


最 后 检查 原始 输出 。 在 实验 过 程 中 ， 学 习 方 案 产生 的 原始 输出 可 以 保存 到 文件 ， 以 便 
将 来 检查 。 切 换 至 设置 面板 ， 单 击 Result generator 子 面板 中 的 输入 框 ， 打 开通 用 对 象 编辑 
器 ， 将 rawOutput 选项 设置 为 Tme， 如 图 434 所 示 。 原 始 输出 文件 默认 为 
splitEvaluatorOut.zip， 用 户 可 以 修改 outputFile 选项 以 更 改 默认 文件 设置 。 
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4.34 ”设置 原始 输出 


至 此 ， 全 部 设置 已 经 完成 ， 运 行 实验 后 ， 在 Weka 安装 目录 下 可 以 找到 原始 输出 文件 
splitEvaluatorOut.zip， 打 开 后 的 文件 内 容 如 图 4.35 所 示 。 
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4.35 ”原始 输出 文件 


使 用 任意 的 文本 编辑 器 打开 第 一 个 文件 ， 文 件 内 容 如 下 


ClassifierSplitEvaluator: weka.classifiers.trees.J48 -C 0.25 -M 2(version - 
217733168393644444) Classifier model: 
J48 pruned tree 


petalwidth <= 0.6: Iris-setosa (33.0) 
petalwidth > 0.6 

| petalwidth <= 1.5: Iris-versicolor (31.0/1.0) 
| petalwidth > 1.5: Iris-virginica (35.0/3.0) 


Number of Leaves : 3 

Size of the tree : 5 

Correctly Classified Instances 47 92.1569 % 
Incorrectly Classified Instances 4 7.8431 % 
Kappa statistic 0.8824 

Mean absolute error 0.0723 

Root mean squared error 0.2191 

Relative absolute error 16.2754 多 

Root relative squared error 46.4676 $ 

Coverage of cases (0.95 level) 96.0784 $ 

Mean rel. region size (0.95 level) 44.4444 凶 

Total Number of Instances 51 


measureTreeSize : 5.0 
measureNumLeaves : 3.0 
measureNumRules : 3.0 


可 见 ， 原 始 输出 文件 无 非 就 是 使 用 所 选 的 分 类 器 对 数据 集 的 训练 和 测试 结果 。 

4. 使 用 其 他 结果 产生 器 

上 一 个 示例 展示 的 是 随机 的 训练 和 测试 实验 ， 本 示例 在 上 一 个 实验 的 基础 上 ， 扩 展 到 
使 用 其 他 的 结果 产生 器 来 完成 实验 。 

首先 看 交叉 验证 结果 产生 器 。 单 击 设置 面板 下 Result generator 子 面板 的 Choose 按 
钮 ， 选 择 CrossValidationResultProducer， 单 击 Choose 按钮 旁边 的 输入 框 ， 弹 出 如 图 4.36 
所 示 的 通用 对 象 编辑 器 。 该 对 话 框 包含 的 是 交叉 验证 的 具体 参数 ， 如 划分 / 折 。 实 验 进行 十 
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折 交 叉 验证 ， 而 不 是 在 给 定 的 例子 上 训练 和 测试 。 
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图 4.36 交叉 验证 结果 产生 器 选项 
Result generator 子 面板 现在 显示 要 进行 交叉 验证 。 单 击 More 按钮 可 以 查看 
CrossValidationResultProducer 功能 的 简单 描述 。 
与 上 一 个 示例 的 RandomSplitResultProducer 一 样 ， 可 以 在 Generator properties 子 面板 
中 加 入 多 个 学 习 方 案 ， 如 图 4.37 所 示 ， 这 些 方 


案 在 交叉 验证 时 运行 。 


图 4.37 加 入 多 个 学 习 方 案 

运行 次 数 维持 为 默认 的 10 次 ， 因 此 对 于 每 一 个 学 习 方案 和 数据 集 ， 一 共 运 行 100 次 
交叉 验证 。 运 行 本 实验 后 进行 分 析 ， 产 生 如 图 4.38 所 示 的 结果 。 注 意 到 一 共处 理 了 300 条 
Ll 


运行 分 析 


下 面 尝 试 使 用 平均 结果 产生 器 。AveragingResultProducer 是 CrossValidationResultProducer 
的 一 种 替代 方案 ， 这 种 结果 产生 器 取 一 组 运行 的 平均 ， 典 型 为 交叉 验证 运行 。 首 先 单 击 
Result generator 子 面 板 下 的 Choose 按钮 ， 选 择 AveragingResultProducer， 单 击 Choose 按 
钮 旁边 的 输入 框 ， 弹 出 如 图 4.39 所 示 的 对 象 编辑 器 。 
Oreagioemercodedidor 
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图 4.39 平均 结果 产生 器 选项 
单 击 resultProducer 提示 后 面 的 输入 框 ， 弹 出 如 图 4.40 所 示 的 对 象 编辑 器 对 话 框 。 
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图 4.40 结果 产生 器 选项 
与 其 他 结果 生成 器 一 样 ， 平 均 结 果 产 生 器 也 可 以 定义 额外 的 学 习 方案 。 当 使 用 
AveragingResultProducer 时 ， 分 类 器 特性 位 于 Generator properties 子 面板 下 更 深层 次 结构 
中 ， 如 图 4.41 所 示 。 


4.41 更 深层 次 的 分 类 器 
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如 图 4.42 所 示 为 加 入 ZeroR、OneR 和 J48 学 习 方案 后 的 设置 面板 。 


4.42 ”加 入 多 个 学 习 方案 


在 本 实验 中 ， 使 用 十 折 交 叉 验证 运行 ZeroR、OneR 和 J48 学 习 方 案 各 10 次 。 然 后 ， 
对 每 一 组 10 次 交叉 验证 折 取 平均 值 ， 每 次 运行 产生 一 个 结果 行 ， 一 共 30 个 结果 行 ， 而 不 
像 在 前 面 的 例子 中 使 用 CrossValidationResultProducer 每 个 折 产 生 一 个 结果 行 。 如 果 保 存 原 
始 输出 ， 会 将 所 有 300 个 结果 都 发 送 到 该 归档 文件 ， 如 图 4.43 所 示 。 


一 一 一 一 一 一 一 一 一 一 -一 二 


图 4.43 平均 结果 产生 器 运行 结果 


最 后 尝试 使 用 明确 指定 测试 集 的 结果 产生 器 。 在 过 去 ， 实 验 者 最 大 弊端 之 一 就 是 无 法 
提供 测试 集 ， 尽 管 除 了 随机 化 训练 数据 ， 以 便 测试 分 类 器 的 健壮 性 外 ， 重 复 运行 明确 指定 
的 测试 集 并 没有 多 大 的 意义 。 它 提供 了 并 行 比较 不 同 的 分 类 器 和 分 类 器 的 设置 的 可 能 性 ， 
这 是 探索 者 缺乏 的 功能 。 

首先 选择 数据 集 ， 在 Datasets 子 面板 中 删除 原来 的 数据 集 ， 改 为 segment-challenge.arff 
作为 训练 集 。 

下 面 设置 测试 集 。 单 击 Result generator 子 面板 下 的 Choose 按钮 ， 选 择 
ExplicitTestSetResultProducer， 单 击 Choose 按钮 旁边 的 输入 框 ， 弹 出 结果 产生 器 的 对 象 编 
辑 器 。 单 击 testsetDir 提示 后 面 的 输入 框 ， 选 择 测 试 集 目录 为 data， 清 除 testsetPrefix 的 内 
容 ， 将 testsetSuffix 选项 更 改 为 -test.arff， 如 图 4.44 所 示 。 
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图 4.44 设置 结果 产生 器 选项 
这 样 ， 按 照 上 一 节 里 测试 集 文件 名 的 构造 方式 ， 即 
<dir> + / + <prefix> + <relation-name> + <suffix> 


测试 集 文件 名 为 data/segment-test.arff， 刚 好 为 测试 文件 。 这 里 的 关系 名 称 为 
segment， 可 以 打开 训练 文件 segment-challenge.arff 确认 一 下 。 

与 其 他 结果 产生 器 相 比 ，ExplicitTestSetResultProducer 最 大 的 不 同 就 是 可 以 明确 指定 
测试 集 。 其 他 的 功能 尝试 ， 就 留 给 读者 自行 练习 。 

5. 聚 类 器 实验 

使 用 实验 者 的 高 级 模式 ， 不 但 可 以 运行 分 类 器 算法 实验 ， 还 可 以 运行 聚 类 器 算法 实 
验 ， 这 是 实验 者 简单 模式 没有 的 功能 。 聚 类 器 算法 实验 局 限于 那些 可 以 计算 概率 密度 估计 
的 聚 类 器 ， 其 主要 评估 指标 是 各 聚 类 器 发 现 的 簇 的 对 数 似 然 。 如 下 示例 使 用 聚 类 器 设置 交 
叉 验证 实验 。 

首先 ， 从 Result generator 子 面板 中 选择 CrossValidationResultProducer 作为 结果 产生 
器 ， 打 开 结 果 产 生 器 的 对 象 编 辑 器 以 设置 选项 ， 如 图 4.45 所 示 ， 单 击 splitEvaluator 提示 旁 
边 的 Choose 按钮 ， 将 该 选项 设置 为 DensityBasedClustererSplitEvaluator。 


4.45 选择 splitEvaluator 
然后 ， 单 击 刚 才 按 钮 右边 的 输入 框 ， 设 置 DensityBasedClustererSplitEvaluator 的 选 
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项 ， 得 到 如 图 4.46 所 示 的 对 话 框 。 注 意 到 removeClassColumn 选项 默认 为 True， 即 设置 为 
移 除 类 别 属 性 。 如 果 用 户 想 要 保持 类 别 属性 ， 可 以 将 removeClassColumn 选项 设置 为 


False。 
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图 4.46 ” 拆 分 评估 器 选项 
一 旦 选 定 DensityBasedClustererSplitEvaluator 之 后 ， 注 意 到 Generator properties 子 面板 


已 经 禁用 ， 单 击 下 拉 框 再 次 启用 该 子 面板 以 扩展 splitEvaluator， 会 弹出 一 个 选择 属性 窗 
口 ， 如 图 4.47 所 示 ， 单 击 并 选择 clusterer 节点 。 
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图 4.47 选择 clusterer 节点 


现在 可 以 看 到 ，EM 算法 成 为 默认 的 聚 类 器 添加 到 方案 列表 。 用 户 可 以 根据 需要 添加 
或 删除 其 他 的 聚 类 器 。 例 如 ， 图 4.48 所 示 方 案 添加 了 SimpeKMeans 算法 。 注 意 到 该 算法 
由 MakeDensityBasedClusterer 包装 ， 这 是 因为 在 Weka 中 ， 大 多 数 其 他 聚 类 器 都 不 会 产生 
密度 估计 ， 因 此 不 得 不 由 MakeDensityBasedClusterer 包装 。 


Generator properties 


nshled = Select preperty 


Ehoose |HakeDensityBasedClusterer -1.0E-6 -¥ weks clustere 


EM -I 100 -¥W -1 -X 10 -eux -1 -ll-evy 1.08-6 -ll-iter 1.0E-6 - 痢 1.0E-6 -non 
4.48 ”添加 其 他 方案 


下 一 步 是 运行 实验 ， 完 成 后 在 分 析 面 板 中 分 析 结 果 。 这 里 将 Comparison field 选项 设 
置 为 Log likelihood， 然 后 单 击 Perform test 按钮 运行 测试 ， 运 行 结果 如 图 4.49 所 示 。 


图 4.49 ”运行 结果 


4.3 远程 实验 


实验 者 的 一 个 非常 优异 的 特性 是 ， 它 可 以 对 实验 进行 拆 分 ， 然 后 在 多 个 处 理 器 或 多 台 
计算 机 之 间 进 行 分 布 式 计算 ， 也 就 是 将 实验 的 计算 负荷 分 布 到 多 台 网 络 计算 机 并 行 计算 。 
这 称 为 远程 实验 ， 或 直接 叫 作 分 布 实验 。 只 有 一 定 水 平 的 高 级 Weka 用 户 才 可 能 用 好 这 些 
设置 面板 中 的 高 级 功能 。 分 布 实 验 是 一 种 高 级 功能 ， 使 用 起 来 往往 非常 困难 。 例 如 ， 文 件 
和 目录 权限 的 设置 可 能 非常 棘手 ， 尤 其 是 对 于 从 未 做 过 类 似 工 作 的 新 手 ， 一 个 简单 问题 往 
往 困惑 很 长 时 间 。 因 此 ， 建 议 新 手 跳 过 这 一 节 ， 待 水 平 提升 后 再 尝试 远程 实验 。 


4.3.1 远程 实验 设置 


1. 实验 要 求 


远程 实验 在 将 结果 存放 到 中 心 数据 库 时 工作 性 能 最 佳 。 因 此 在 实验 者 界面 的 高 级 模式 
中 ， 选 择 JDBC database 作为 结果 目标 。 远 程 实验 的 分 布 式 计算 使 用 Java RMI 机 制 ， 可 以 
工作 在 任意 的 有 JDBC 驱动 的 数据 库 中 ， 而 且 ，Weka 开发 者 已 经 在 包括 MySQL 等 多 种 免 
费 数 据 库 中 进行 过 测试 。 当 然 ， 如 果 不 使 用 数据 库 ， 使 用 文件 系统 也 是 可 以 的 ， 可 以 指定 
各 台 主 机 将 它们 的 实验 结果 保存 为 不 同 的 ARFF 文件 ， 最 后 再 合并 这 些 文件 。 但 很 显然 ， 
这 样 要 麻烦 一 些 。 

进行 分 布 实验 ， 每 台 主机 必须 满足 如 下 要 求 。 

(1) 安装 Java。 

(2) 能 够 访问 要 用 到 的 数据 集 。 

(3) 运行 weka.experiment.RemoteEngine 实验 服务 器 。 
其 中 ， 安 装 Java 比较 容易 。 要 求 每 台 主 机 都 能 够 访问 要 用 到 的 数据 集 要 困难 一 些 ， 最 
好 的 做 法 是 将 数据 集 文件 复制 到 每 台 主 机 ， 并 且 将 这 些 文件 放 到 与 RemoteEngine.jar 文件 
相同 的 相对 位 置 。 比 如 ， 如 果 RemoteEnginejar 文件 在 experimentremote_engine 目录 中 ， 
再 将 数据 集 文件 放 到 experiment\datasets 目录 ， 这 样 ， 通 过 相对 路 径 “.、\ datasets” 就 可 以 
访问 数据 集 。 

如 果 要 将 实验 结果 放 到 中 心 数据 库 中 ， 需 要 在 每 台 主机 中 安装 JDBC 驱动 程序 ， 并 且 
在 中 心 数据 库 做 必要 的 设置 ， 使 得 每 台 主 机 都 能 访问 数据 库 。 
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2. 启动 远程 引擎 和 实验 者 


要 在 主机 中 启动 实验 服务 器 远程 引擎 ， 首 先 从 Weka 安装 目录 中 复制 remoteExperimentServerjar 
文件 到 主机 目录 ， 然 后 使 用 如 下 命令 进行 解压 缩 。 


jar -xvf remoteExperimentServer.jar 


当然 ， 不 习惯 使 用 命令 行 的 读者 可 以 尝试 使 用 WinRAR 等 实用 程序 打开 
remoteExperimentServer.jar 文件 ， 然 后 解压 缩 到 目标 目录 。 

解压 缩 出 来 的 文件 一 共有 三 个 : remoteEnginejar、remote policy 和 remote.policy.example。 
其 中 ，remoteEngine.jar 是 一 个 包含 实验 服务 器 的 可 执行 jar 文件 ，remote.policy 文件 授予 
远程 引擎 执行 某 些 操作 的 权限 ， 如 连接 到 某 个 端口 或 访问 某 个 目录 。 该 文件 需要 用 户 进行 
编辑 ， 为 某 些 权限 指定 正确 的 路 径 。 对 于 有 Java 分 布 式 编程 经 验 的 用 户 而 言 ， 在 仔细 研究 
文件 后 ， 很 容易 理解 文件 的 结构 和 含义 。 但 对 于 一 般 用 户 而 言 ， 搞 清楚 文件 的 结构 还 是 有 
相当 的 难度 。 默 认 情况 下 ， 指 定 代码 使 用 HTTP 端口 80 从 网 络 上 下 载 ， 但 远程 引擎 也 可 
以 指定 从 文件 URL 加 载 代码 。 要 做 到 这 一 点 ， 可 以 去 掉 remote.policy 文件 中 例子 的 注 
释 ， 或 者 修改 remote .policy.example 文件 以 满足 实际 需要 。remote.policy.example 文件 包含 
一 个 在 Linux 操作 系统 下 ， 一 个 虚构 的 用 户 johndoe 的 完整 例子 。 远 程 引擎 还 需要 能 够 访 
问 实验 中 使 用 的 数据 集 ， 参 见 remote.policy 文件 的 第 一 个 条 目 。 数 据 集 路 径 由 实验 者 ( 即 客 
户 端 ) 指 定 ， 远 程 引擎 使 用 同样 的 路 径 也 应 该 能 找到 数据 集 。 为 了 方便 这 一 点 ， 有 必要 在 实 
验 者 的 设置 面板 中 选择 Use relative paths 复 选 框 以 指定 相对 路 径 名 称 。 

要 启动 远程 引擎 服务 器 ， 在 包含 remoteEngine.jar 文件 的 目录 下 输入 如 下 命令 。 

java -classpath remoteEngine.jar:< jdbc driver path > -Djava.security.policy= 


remote.policy weka.experiment .RemoteEngine 


如 果 一 切 正常 ， 会 显示 如 图 4.50 所 示 的 窗口 。 


a CWindom lsstemD\omd ere -jove Xme2S6m -dasspath -/db_drivers/mysal-comnecto [7 =. ES 


图 4.50 ”启动 RemoteEngine 实验 服务 器 

这 表明 远程 引擎 在 端口 1099 上 启动 RMI 注册 表 并 成 功 运行 。 可 以 在 一 台 主 机 上 运行 
多 个 远程 引擎 ， 如 果 该 主机 配 有 多 个 处 理 器 或 多 核 处 理 器 ， 运 行 多 个 远程 引擎 能 充分 利用 
计算 资源 。 要 运行 多 个 远程 引擎 ， 像 原来 那样 启动 每 个 远程 引擎 ， 但 只 能 有 一 个 远程 引擎 
使 用 默认 的 1099 端口 ， 其 他 的 远程 引擎 必须 使 用 命令 行 选项 (-p) 指 定 一 个 不 同 的 端口 。 对 
于 其 他 主机 ， 重 复 该 过 程 。 

现在 输入 如 下 命令 启动 实验 者 。 

java -Djava.rmi .server.codebase=< weka code URL > weka.gui .experiment .Experimenter 


这 里 的 weka_code_URL 指定 远程 引擎 能 够 找到 的 可 执行 代码 ， 读 者 在 使 用 时 须 替换 


为 计算 机 的 实际 路 径 。 如 果 表 示 一 个 目录 ( 即 一 个 包含 Weka 目录 的 目录 )， 而 不 是 一 个 jar 
文件 ， 则 必须 以 路 径 分 隔 符 ( 如 “/”) 结 束 。 

3. 实验 者 设置 

实验 者 的 高 级 设置 面板 中 间 偏 左 的 位 置 有 一 个 Distribute experiment 子 面板 ， 决 定 是 否 
将 实验 进行 分 布 。 子 面板 里 的 复 选 框 默认 没有 选中 ， 如 果 要 进行 分 布 实验 ， 请 单 击 并 选中 
该 复 选 框 ， 这 将 使 子 面 板 里 的 Hosts 按钮 可 用 ， 单 击 该 按钮 会 弹出 一 个 窗口 ， 询 问 分 布 实 
验 的 主机 名 称 ， 主 机 名 称 必须 为 全 限定 名 (如 : ml.cs.waikato.ac.nz)， 如 图 4.51 所 示 。 编 辑 
主机 名 称 的 窗口 很 简单 ， 只 要 在 上 部 的 单行 编辑 器 中 输入 主机 名 或 人 P 地 址 ， 如 果 使 用 默认 
端口 ， 则 不 用 输入 端口 号 ， 否 则 必须 输入 端口 号 。 然 后 按 Enter 键 使 其 添加 到 窗口 下 部 的 
多 行列 表 杠 中。 如果 想 删 除 主机 列表 中 的 某 个 主机 ， 请 选中 该 主机 ， 然 后 单 击 Delete 
selected 按钮 就 可 以 完成 删除 。 

如 果 一 台 主 机 运行 多 于 一 个 的 远程 引擎 ， 需 要 多 次 在 单行 编辑 器 中 输入 主机 名 ， 如 果 
不 是 默认 端口 ， 还 必须 输入 端口 号 。 例 如 ， 图 4.52 示 出 了 本 地 主机 localhost 运行 两 个 远程 
引擎 ， 一 个 运行 在 默认 的 1099 端口 ， 另 一 个 运行 在 5050 端口 。 


图 4.51 编辑 主机 名 称 图 4.52 主机 名 加 端口 号 
需要 注意 的 是 ， 要 确保 设 定 的 端口 没有 被 主机 中 的 其 他 进程 占用 。 如 果 不 知道 具体 可 


以 使 用 哪些 端口 ， 可 参考 如 下 两 条 规则 ， 规 则 一 ， 只 能 使 用 1024 以 后 的 端口 。0 一 1023 为 
熟知 端口 号 ， 由 IANA(Internet Assigned Numbers Authority， 互 联网 地 址 指派 机 构 ) 指 派 和 
控制 ， 而 1024 一 65535 端口 并 没有 公共 定义 ， 用 户 可 以 自己 定义 这 些 端口 ， 其 中 ，1024 一 
49151 为 注册 端口 号 ，IANA 不 指派 也 不 控制 ， 可 在 IANA 注册 ， 防 止 出 现 重复 ，49152 一 
65535 为 临时 端口 号 ， 不 用 指派 、 注 册 ， 可 由 任何 进程 来 使 用 ， 是 临时 端口 。 规 则 二 ， 在 
使 用 端口 前 ， 先 使 用 cmd 命令 打开 命令 行 窗 口 ， 然 后 输入 命令 netstat -aon 并 回 车 ， 查 看 
本 机 已 经 占用 的 端口 ， 挑 选 没有 被 占用 的 端口 号 。 

输入 主机 名 称 之 后 ， 使 用 前 文 讲述 的 方法 配置 其 余 的 实验 选项 。 有 一 种 更 为 简捷 的 方 
法 是 ， 首 先 在 简单 模式 下 进行 配置 ， 然 后 再 切换 到 高 级 模式 ， 设 置 其 他 选项 。 当 使 用 Run 
面板 启动 分 布 实验 ， 各 台 主 机 会 显示 子 实验 的 进度 ， 以 及 可 能 的 错误 消息 。 

分 发 实验 将 实验 拆 分 为 子 实 验 ， 通 过 RMI 发 送 给 主机 去 执行 。 默 认 情 况 下 ， 实 验 按照 
数据 集 进行 划分 ， 即 选中 By data set 单 选 框 。 在 这 种 情况 下 ， 主 机 数量 不 能 比 数据 集 更 
多 。 每 个 子 实验 自 成 体系 ， 将 所 有 的 学 习 方案 用 于 单个 数据 集 。 运 行 数量 很 少 的 数据 集 可 
以 按照 运行 来 划分 ， 即 选中 By run 单 选 框 。 例 如 ， 一 个 10 倍 的 十 折 交 叉 验 证 就 会 分 割 成 
10 个 子 实验 ， 每 次 运行 一 个 子 实验 。 
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4. 故障 诊断 


如 果 在 远程 实验 中 遇 到 一 些 问题 ， 使 得 实验 无 法 继续 ， 也 不 要 慌乱 ， 这 在 分 布 式 环境 
下 十 分 正常 ， 即 使 是 网 络 高 手 也 常常 会 遇 到 需要 解决 的 新 问题 。 

尽管 因 网 络 环境 复杂 而 导致 出 现 的 疑难 问题 多 变 ， 想 要 一 一 列 出 可 能 出 现 的 问题 是 不 
可 能 的 ， 但 是 ， 还 是 有 一 些 常见 问题 需要 了 解 ， 使 用 者 在 实际 工作 中 可 举一反三 ， 排 除 故 
障 。 常 见 问题 列举 如 下 。 

(1) 如 果 启动 实验 后 捕获 到 类 似 于 如 下 的 错误 : 

01:13:19: RemoteExperiment (//192.168.0.105/RemoteEngine) (sub)experiment 

(datataset iris.arff) failed : 

java.sql.SQLException: Table already exists: EXPERIMENT INDEX in statement 

[CREATE TABLE Experiment index ( Experiment type LONGVARCHAR, Experiment setup 

LONGVARCHAR, Result table INT )] 

01:13:19: dataset :iris.arff RemoteExperiment (//192.168.0.105/RemoteEngine) 

(sub)experiment (datatasetiris.arff) failed : java.sql.SQLException: Table 

already exists: EXPERIMENT INDEX in statement [CREATE TABLE Experiment index 

( Experiment type LONGVARCHAR, Experiment setup LONGVARCHAR, Result table 

INT )]. Scheduling for execution on another host. 


请 不 要 惊慌 ， 这 只 是 因为 多 台 远 程 主机 试图 创建 相同 的 数据 库 表 ， 并 被 临时 锁定 。 这 
个 问题 不 需要 解决 ， 它 会 自己 解决 ， 因 此 只 要 放手 让 你 的 实验 自己 运行 。 事 实 上 ， 这 表明 
实验 正常 工作 。 

(2) 如 果 先 将 实验 序列 化 至 文件 ， 然 后 再 修改 DatabaseUtils props 文件 并 反 序 列 化 实 
验 ， 就 可 能 会 导致 一 个 错误 ， 例 如 ， 缺 少 类 型 映射 的 错误 ， 这 是 因为 ， 实 验 将 使 用 序列 化 
实验 那个 时 刻 的 DatabaseUtils props 文件 ， 而 不 是 修改 后 的 文件 。 请 记 住 ， 序 列 化 过 程 也 
序列 化 DatabaseUtils 类 ， 因 此 也 保存 了 配置 文件 。 因 此 ， 如 果 修 改 了 DatabaseUtils.props 
文件 ， 此 前 序列 化 的 实验 可 能 就 不 能 使 用 了 。 此 外 ，Java 也 可 将 实验 序列 化 为 XML 格 
式 ， 而 不 是 二 进 制 格式 ， 这 是 产生 同样 错误 的 另 一 个 原因 。 

(3) 使 用 损坏 的 或 不 完整 的 DatabaseUtils.props 文件 可 能 会 导致 特定 的 接口 错误 ， 例 
如 ， 禁 止 使 用 User 按钮 旁边 的 Database URL。 如 果 发 现 此 类 莫名 其 妙 的 错误 ， 建 议 复制 
一 个 干净 的 DatabaseUtils props 文件 。 

(4) 如 果 远 程 引擎 在 调用 java.util.Hashtable. getO 时 捕获 NullPointerException 异常 ， 不 
要 惊慌 ， 这 不 会 影响 实验 的 结果 。 


4.3.2 手把手 教 你 用 


1. 数据 库 准 备 


本 示例 展示 如 何 使 用 MySQL 数据 库 管 理 系统 构建 远程 实验 数据 库 。 本 示例 使 用 
MySQL 社区 版 5.5.15， 数 据 库 客户 端 使 用 Navicat 8.2.12 For MySQL。 

首先 ， 创 建 一 个 名 称 为 weka 的 数据 库 ， 字 符 集 使 用 默认 字符 集 UTF8， 如 图 4.53 
所 示 。 

然后 ， 以 root 用 户 登 录 并 创建 一 个 名 称 为 weka 的 数据 库 用 户 ， 如 图 4.54 所 示 。 注 
意 ， 这 里 的 主机 不 要 填 localhost， 而 要 填 百 分 号 %， 这 样 ，weka 用 户 才能 从 其 他 主机 登录 


数据 库 ， 和 否则 ，weka 用 户 只 能 从 本 机 登录 ， 无 法 做 分 布 实验 。 


图 4.53 创建 数据 库 图 4.54 创建 数据 库 用 户 


赋予 该 用 户 对 整个 weka 数据 库 的 权限 ， 如 图 4.55 所 示 。 注 意 ， 这 只 是 实验 用 ， 因 此 
赋予 全 部 权限 只 是 为 了 简单 ， 如 果 正 式 使 用 ， 最 后 只 赋予 足够 权限 即 可 。 
做 完 这 些 工 作 ， 数 据 库 已 经 准备 好 了 ， 下 面 该 准备 文件 目录 、jar 文件 和 配置 文件 了 。 
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图 4.55 赋予 weka 用 户 权限 


2. 运行 实验 前 的 准备 
本 示例 准备 文件 目录 ， 并 放置 jar 文件 、 数 据 集 文件 和 配置 文件 ， 修 改 配置 文件 并 编 
辑 批 处 理 文件 。 
首先 ， 使 用 Windows 资源 管理 器 在 C 盘 的 根 目录 上 建立 如 图 4.56 所 示 的 目录 结构 。 
其 中 ，datasets 子 目 录用 于 存放 数据 集 文件 ，db_drivers 子 目录 用 于 存放 数据 库 驱 动 ， 
remote_engine 子 目录 用 于 存放 远程 引擎 可 执行 jar 文件 、 配 置 文件 和 批 处 理 文件 。 
[se | 
BD datasets 
县 db_drivers 
remote_engine 


4.56 文件 目录 结构 


然后 ， 将 类 别 属性 为 离散 型 的 数据 集 文件 复制 一 份 到 datasets 子 目录 中 ， 一 共有 16 个 
文件 ， 如 图 4.57 所 示 。 由 于 本 示例 准备 对 分 类 算法 进行 分 布 实验 ， 因 此 不 使 用 类 别 属性 为 
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连续 型 的 数据 集 。 

下 一 步 是 将 数据 库 驱 动 程序 复制 到 db _drivers 子 目 录 中 ， 本 书 使 用 MySQL 数据 库 ， 
因此 复制 mysql-connector-java-5.1.6.jar 驱动 文件 。 如 果 使 用 其 他 数据 库 ， 请 按照 实际 情况 
复制 相应 的 驱动 。 
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©O credit-g.arff © diabetes.arft 

名 glassarf ionosphere.arff 

名 iis2Darf Oirisarff 

名 laborarf © segment-challenge.arff 
人 OO segment-testarff 加 soybeanarf 
Ounbalanced.arff Ovotearf 

O weather.nominal.arff O weather.numericarff 


4.57 ”实验 用 数据 集 


接 下 来 ， 将 第 1 章 所 述 的 DatabaseUtils.props 复制 到 remote_engine 子 目 录 中 ， 按 照 自 
己 数 据 库 的 实际 设置 相应 修改 配置 文件 。 

在 Weka 安装 目录 下 ， 找 到 remoteExperimentServer.jar 文件 并 使 用 WinRAR 压缩 工具 打 
开 ， 如 图 4.58 所 示 。 将 压缩 文件 中 的 remoteEngine.jar、remote.policy 和 remote.policy.example 
三 个 文件 解压 缩 到 remote_engine 子 目 录 中 。 


se 
| 名 入 办 


下旬 


图 4.58 远程 实验 服务 器 文件 
使 用 任意 的 文本 编辑 器 打开 remote.policy 文件 ， 将 配置 文件 按 如 程序 清单 4.1 所 示 的 
内 容 进行 修改 。 可 以 看 到 ， 仅 修改 了 两 行 代码 : 第 一 ， 将 数据 集 文件 所 在 目录 授权 为 可 
读 ; 第 二 ， 将 remoteEngine.jar 文件 所 在 目录 (本 文 为 C:/experiment/remote_engine/) 授 权 为 
可 读 。 注 意 到 这 里 都 使 用 相对 路 径 ， 读 者 可 按照 自己 的 实际 配置 作 相 应 修改 。 


程序 清单 4.1 remote.policy 文 件 


// file permission for data sets 
permission java.io.FilePermission 
"../datasets/-", "read"; 


// file permission to load server classes from remoteEngine.jar. 
// only needed if RemoteEngine Skel.class/_stub.class are going to 
// be downloaded by clients (ie, if these files are not already in the 
// client's classpath). Normally this doesn't need to be changed. 
permission java.io.FilePermission 

“remte engine/-~", "read"y 


在 remote_engine 子 目 录 中 ， 新 建 一 个 startRemoteEngine.bat 批 处 理 文件 ， 运 行 该 批 处 
理 文件 就 启动 远程 引擎 ， 文 件 内 容 如 程序 清单 4.2 所 示 。 


程序 清单 4.2 startRemoteEngine bat 


Qecho off 

java -Xmx256m -classpath ../db drivers/mysql-connector-java-5.1.6.jar; 

remoteEngine.jar; C:/Weka-3-7/weka.jar -Djava.security.policy=remote.policy 

weka .experiment .RemoteEngine 

同样 在 remote_engine 子 目 录 中 ， 新 建 一 个 startExperimenter.bat 批 处 理 文件 ， 运 行 该 
批 处 理 文件 就 启动 实验 者 进行 分 布 处 理 ， 批 处 理 文件 内 容 如 程序 清单 4.3 所 示 。 


程序 清单 4.3 startExperimenter.bat 


到 池 Jelueuledxd 贡 了 小 li 


Qjava -cp ../db drivers/mysql-connector-java-— 
5.1.6.jar;remoteEngine.jar;C:/Weka-3-7/weka.jar - 
Djava.rmi .server.codebase=file:///C:/Weka-3-7/weka.jar 
weka .gui .experiment .Experimenter 


3. 分 布 实验 

本 示例 完成 分 布 实验 ， 分 布 实验 的 网 络 拓扑 效果 如 图 4.59 所 示 。 两 台 主机 通过 无 线路 
由 器 相连 接 ， 第 一 台 主 机 作为 数据 库 服 务 器 ， 安 装 了 MySQL 和 Weka， 其 卫 地 址 为 
192.168.1.101; 第 二 台 主 机 上 安装 了 Weka， 其 IP 地 址 为 192.168.1.103。 两 台 主机 上 都 复 
制 了 一 份 如 图 4.56 所 示 的 目录 及 文件 。 


4.59 分布 实验 网 络 拓扑 


如 果 不 知道 主机 的 人 P 地 址 ， 可 以 运行 ipconfig 命令 ， 查 看 本 机 的 人 P 地 址 ， 还 要 尝试 
一 下 ping 命令 ， 确 保 两 台 主 机 不 会 因为 防火 墙 等 原因 导致 无 法 通信 。 

实验 前 ， 在 第 一 台 主 机 上 启动 MySQL 数据 库 ， 并 在 第 二 台 主 机 上 测试 数据 库 连接 ， 
以 保证 能 连通 第 一 台 主 机 的 数据 库 。 

下 面 正式 开始 实验 。 首 先 ， 分 别 在 两 台 主机 中 ， 使 用 Windows 资源 管理 器 导航 至 
experiment\remote_engine 目录 ， 双 击 startRemoteEngine .bat 启动 远程 引擎 ， 两 台 主机 的 启 


Y 
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动 窗口 如 图 4.60 所 示 。 


图 4.60 ”启动 两 台 主机 的 远程 引擎 


在 第 二 台 主 机 中 ， 双 击 startExperimenter.bat 启动 实验 者 。 为 了 简化 设置 ， 开 始 时 保持 
默认 的 简单 模式 ， 选 择 Result Destination 下 拉 列 表 框 为 JDBC database， 单 击 User 按钮 ， 
输入 数据 库 URL、 数 据 库 用 户 和 密码 。 然 后 单 击 Datasets 子 面板 的 Use relative 复 选 框 


单 击 Add new 按钮 选中 datasets 子 目录 里 的 数据 集 。 最 后 ， 在 Algorithms 子 面 板 中 单 击 
Add new 按钮 选择 ZeroR、OneR 和 J48 分 类 算法 ， 最 终 的 设置 如 图 4.61 所 示 。 


图 4.61 简单 模式 


下 一 步 ， 单 击 实验 配置 模式 子 面板 里 的 Advanced 单 选 框 ， 切 换 至 高 级 模式 ， 如 
图 4.62 所 示 。 可 以 看 到 ， 简 单 模式 里 的 设置 全 部 都 在 高 级 模式 中 保持 不 变 。 


图 4.62 高 级 模式 
现在 设置 主机 名 称 。 单 击 Distribute experiment 子 面板 里 的 复 选 框 ， 激 活 Hosts 按钮 。 


Y 
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单 击 Hosts 按钮 ， 设 置 进 行 分 布 式 计算 的 主机 ， 如 图 4.63 所 示 。 注 意 到 第 一 台 主机 设置 的 
是 他 地 址 ， 这 是 因为 在 局 域 网 环境 下 为 了 避免 指定 主机 名 -IP 地 址 映射 的 麻烦 。 


4.63 ”编辑 主机 名 


现在 已 经 完成 实验 设置 ， 切 换 至 Run 面板 ， 单 击 Start 按钮 启动 实验 。 在 实验 者 Run 
面板 的 Log 子 面板 中 会 显示 分 配子 实验 的 进展 ， 同 时 在 两 台 主机 的 远程 引擎 中 会 显示 实验 


4.64 ”运行 实验 界面 


下 一 步 是 分 析 实 验 结果 。 由 于 在 下 一 节 将 详细 讲述 这 一 内 容 ， 因 此 就 简略 列举 一 下 结 
果 。 切 换 至 Analyse 面板 ， 单 击 Database 按钮 并 输入 数据 库 URL、 用 户 名 和 密码 ， 稍 等 片 
刻 后 ， 实 验 者 导入 4500 条 实验 结果 ， 如 图 4.65 所 示 。 


4.65 “导入 实验 结果 
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最 后 ， 单 击 Perform test 按钮 ，Test output 子 面板 显示 测试 结果 ， 如 图 4.66 所 示 。 


4.66 ”测试 结果 


4. 多 核实 验 


如 果 想 充分 利用 多 核 计算 机 的 性 能 ，Weka 3.5.7 版 本 以 后 都 支持 多 核 。 所 要 做 的 事 就 
是 在 启动 RemoteEngine 时 ， 带 -p 选项 指定 监听 端口 ， 然 后 在 实验 者 界面 中 指定 主机 名 和 
端口 号 ， 格 式 为 “主机 名 :端口 号 ”。 

还 要 注意 的 是 每 次 重新 运行 实验 前 ， 最 好 先 删除 数据 库 里 的 实验 表 ， 以 免 对 实验 结果 
造成 影响 。 

下 面 使 用 第 二 台 主 机 进行 多 核实 验 。 该 主机 的 CPU 是 Intel 酷睿 i3， 这 是 双核 四 线程 
的 多 核 CPU 。 首 先 ， 将 startRemoteEngine.bat 批 处 理 文件 复制 一 份 ， 命 名 为 
startRemoteEnginel.bat， 使 用 任意 文本 编辑 器 打开 startRemoteEnginel.bat 文件 ， 按 照 程序 
清单 4.4 所 示 编 辑 文件 内 容 ， 可 以 看 到 ， 只 是 在 第 二 行 的 末尾 添加 “-p 5050” 选 项 ， 其 余 
不 变 。 

程序 清单 4.4 startRemoteEnginel.bat 

Q@echo off 

java -Xmx256m -classpath ../db drivers/mysql-connector-java- 


5.1.6.jar;remoteEngine.jar; C:/Weka-3-7/weka.jar - 
Djava.security.policy=remote.policy weka.experiment.RemoteEngine -p 5050 


编辑 完成 后 保存 批 处 理 文件 ， 然 后 双击 运行 ， 弹 出 如 图 4.67 所 示 的 窗口 。 


图 4.67 ”运行 端口 为 5050 的 远程 引擎 


然后 ， 在 实验 者 的 设置 面板 中 ， 单 击 Hosts 按钮 ， 按 照 图 4.68 进行 设置 。 注 意 ， 不 使 
用 默认 端口 的 主机 ， 必 须 指定 端口 号 ， 如 “]ocalhost:5050”。 


4.68 编辑 主机 名 


按照 上 一 个 实验 的 方式 启动 实验 ， 观 察 本 机 的 远程 引擎 窗口 里 显示 的 信息 ， 实 验 运行 
完毕 后 ， 实 验 者 界面 如 图 4.69 所 示 。 
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图 4.69 运行 实验 


下 面 按照 上 述 方法 ， 在 第 二 台 主 机 设置 不 同 数量 的 线程 ， 比 较 多 核 使 用 多 线程 对 性 能 
的 影响 。 由 于 只 是 双核 四 线程 的 酷睿 i3CPU， 因 此 最 多 使 用 四 个 线程 ， 将 不 使 用 分 布 实验 
作为 对 照 ， 和 前 面 实验 一 样 使 用 16 个 数据 集 和 3 个 分 类 算法 ， 实 验 结果 如 表 4. 1 所 示 。 


可 见 ， 使 用 多 线程 能 大 大 提高 运行 效率 ， 且 在 一 定 的 线程 数 以 内 ， 随 着 线程 数 的 增加 ， 运 
行 的 时 间 越 短 。 


表 4.1 多 核实 验 开销 
3 分 48 秒 2 分 51 秒 2 分 11 秒 1 分 39 秒 
44 分 析 结 果 


完成 实验 设置 后 运行 实验 ， 之 后 就 需要 分 析 实 验 结果 。 单 击 Analyse 标签 页 切换 至 分 
析 面 板 ， 在 分 析 面板 中 完成 实验 结果 的 分 析 工 作 。 


到 池 Jelueuledxd 贡 了 小 lis 
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4.4.1 获取 实验 结果 


刚 切 换 到 分 析 面板 时 ， 由 于 实验 者 不 知道 从 何 处 获取 实验 结果 ， 因 此 大 部 分 功能 都 不 
可 用 。 实 验 者 提供 三 种 方式 获取 实验 结果 ， 分 别 对 应 分 析 面板 上 部 Source 子 面板 中 的 三 个 
按钮 ， 第 一 种 方式 是 从 文件 获取 ， 单 击 File 按钮 打开 在 设置 面板 中 由 Results Destination 选 
项 设置 保存 的 实验 结果 文件 ， 第 二 种 方式 是 从 数据 库 获 取 ， 单 击 Database 按钮 打开 一 个 数 
据 库 连接 参数 的 设置 对 话 框 ， 输 入 数据 库 URL、 用 户 名 和 密码 连接 数据 库 ， 从 数据 库 中 获 
取 实 验 结果 ; 第 三 种 方式 是 直接 从 当前 实验 结果 中 获取 ， 单 击 Experiment 按钮 就 可 从 刚才 
运行 的 实验 中 获取 实验 结果 。 

如 图 4.70 所 示 即 为 从 “简单 实验 初步 ”示例 中 得 到 的 分 析 面 板 。Source 子 面板 显示 可 
用 的 结果 行 的 数量 。 由 于 本 次 实验 使 用 3 个 方案 、1 个 数据 集 、 运 行 10 次 十 折 交 叉 验 证 ， 
因此 共有 300 个 结果 行 ， 显 示 “Got 300 results”。 另 外 ， 分 析 面 板 的 左 部 是 Configure 
test( 配 置 测试 ) 子 面板 ， 左 下 部 是 Result list( 结 果 列 表 ) 子 面板 ， 右 部 是 Test output( 测 试 输出 ) 
子 面板 。 下 面 对 这 三 个 子 面板 的 功能 逐一 说 明 。 


4.4.2 配置 测试 


Configure test 子 面板 包含 的 配置 项 最 多 ， 最 为 复杂 。 

Testing with( 测 试 方法 ) 选 项 用 于 选择 使 用 配对 校正 T 检验 还 是 标准 T 检验 来 计算 显著 
性 (significance)。 前 者 是 默认 的 检验 方法 ， 由 于 估计 的 依赖 性 ， 特 别 是 当 使 用 非 x- 折 交叉 
验证 的 一 次 运行 ， 因 此 标准 T 检验 可 能 产生 过 多 的 显著 性 差异 。 有 关 工 检验 的 更 多 信息 ， 
请 参考 统计 学 入 门 教材 。 当 显著 性 水 平 降低 时 ， 结 论 会 增加 置信 度 。 

Select rows and cols( 选 择 行 和 列 ) 选 项 选择 比较 矩阵 的 行 和 列 ， 有 Row( 行 )、Column( 列 ) 
和 Swap( 互 换 ) 三 个 按钮 。 行 字段 和 列 字段 决定 比较 矩阵 的 维 ， 单 击 Row 按钮 和 Column 按 
钮 会 弹出 如 图 4.71 所 示 的 选择 窗口 。 图 中 是 默认 的 选择 ， 可 选项 就 是 实验 进行 测量 的 特 
征 ， 也 就 是 图 4.24 所 示 的 电子 表格 的 列 标签 。 

用 户 可 以 选择 将 哪些 特征 用 作 和 拖 阵 的 行 和 列 ， 图 4.71 所 示 为 用 作 行 和 列 的 特征 。 行 选 
择 了 Dataset， 这 里 只 有 一 个 iris 数据 集 ; 列 选中 了 Scheme 、Scheme options 和 


Scheme version ID， 选 择 多 个 特征 的 方法 是 用 “Shift 键 + 单 击 ”。 图 4.72 可 以 看 到 得 到 的 
结果 ， 由 于 在 比较 矩阵 中 的 列 标题 显示 不 全 ， 可 以 参考 Key 部 分 以 查看 完全 的 信息 。 


4.71 选择 行 和 列 


Daraset (1) rules.Ze | (2) rules (3) trees 


(WY (0/0) (M0/0) 


Key: 
(1) rules.ZeroR '* 48055541465867954 

(2) rules,OneR ，-8 6' -2459427002147861445 

{3) trees.J48 '-C 0.25 -M 2 -217733168393644444 


图 4.72 ”比较 矩阵 
选择 好 行 和 列 之 后 ， 如 果 单 击 Swap 按钮 互 换行 和 列 ， 并 再 次 按 下 Perform test 按钮 ， 
和 矩阵 将 转 置 ， 结 果 如 图 4.73 所 示 。 现 在 矩阵 有 三 行 和 一 列 ， 每 一 行 对 应 一 个 算法 ， 一 列 对 
应 单个 数据 集 。 


DarcaseC (1) iris 


rules.ZeroR '" 4805554146(100) 33.33 | 
rules.OneR '-B 6' -245942(100) 93.80 | 
trees.J48 '-C 0.25 - 2° (100) 94.73 1 


(VW /*) 1 


Key: 
(1) iris 


图 4.73 互 换行 列 后 的 输出 


相反 ， 如 果 不 互 换行 和 列 ， 只 是 单 击 Row 按钮 ， 将 行 选择 的 Dataset 更 换 为 Run， 然 
后 再 次 进行 测试 ， 其 结果 如 图 4.74 所 示 。 这 里 的 Run 是 指 交 叉 验 证 的 运行 ， 本 例 为 10 次 
运行 ， 因 此 有 10 行 。 每 个 行 标签 后 括号 内 的 数字 (图 4.73 中 为 100， 图 4.74 中 为 10) 对 应 
于 该 行 参与 平均 的 结果 数目 。 

Comparison field( 比 较 字 段 ) 下 拉 列 表 框 指定 比较 的 指标 ， 如 Percent_ correct 指定 正确 率 
百分比 ，Number_correct 指定 正确 的 实例 数 ， 等 等 。 

Significance( 显 著 性 ) 指 定 统计 学 显著 性 水 平 ， 默 认为 0.05。 

Sorting (asc.) by( 按 升序 排序 ) 下 拉 列 表 框 选择 按照 何 种 指标 对 结果 行进 行 排序 ， 默 认为 
使 用 自然 排序 ， 按 照 用 户 在 设置 面板 中 输入 数据 集 名 称 行 的 顺序 进行 显示 。 另 外 ， 结 果 行 
还 可 以 根据 比较 字段 里 的 度量 进行 排序 。 


瑟 池 Jelueuledxd 贡 了 小 ls 


@« 


@« 


数据 挖掘 写 机 器 学 习 
一 一 WEKA 应 用 接 术 与 实 开 A 


Daraser (1) rules.Ze | (2) rules (3) trees 
1 (10) 33.33 | 93.33v 96.00v 
2 (10) 33.33 | 94.00v 94.00v 
3 (10) 33.33 | 93.33v .00v 
4 (10) 33.33 | 94.00v 95.33v 
5 (10) 33.33 | 94.67 v 95.33v 
6 (10) 33.33 | 94.00 95.33v 
7 (10) 33.33 | 93.33v 94.00 v 
日 (10) 33.33 | 92.67v 34.00v 
日 (10) 33.33 | 93.33v 94.00v 
10 (10) 33.33 | 95.33v 95.33v 


(tw 1%) 1 {10/0/0) (10/0/0) 


Key: 
(1) rules.ZeroR '' 48055541465867954 

(2) rules.OneR '-B 6' -2459427002147861445 

(3) trees.Js8 '-C 0.25 -M 2' -217733168393644444 


4.74 ” 行 选择 为 Run 的 运行 结果 


单 击 Test base( 测 试 基线 ) 提 示 后 面 的 Select 按钮 ， 可 以 在 弹出 的 对 话 框 中 选择 期 望 的 
基线 学 习 方案 ， 如 图 4.75 所 示 。 选 择 OneR 方案 致使 其 他 方案 都 与 OneR 方案 进行 单独 的 
比较 。 除 了 学 习 方案 外 ， 还 有 其 他 两 个 选项 : Summary( 总 结 ) 和 Ranking( 排 名 )。 前 者 将 每 
一 个 学 习 方案 与 其 他 所 有 方案 进行 比较 ， 并 打印 出 比较 矩阵 ， 其 中 包含 一 些 数据 集 ， 以 及 
哪 一 个 方案 显著 优 于 其 他 方案 的 单元 格 。 后 者 对 方案 进行 排名 ， 根 据 对 一 系列 数据 集 进 行 
测试 得 结果 ， 用 优 于 (>) 和 不 及 (<) 表 示 的 方案 比较 的 结果 ， 打 印 学 习 方 案 的 名 次 表 。 输 出 
的 第 一 列 给 出 了 胜 过 的 数量 减 去 不 及 的 数量 ， 体 现 了 学 习 方 案 的 综合 性 能 。 


Irules. ZereR“ ”46055541465867954 


traes_ Ji “-C 0.25 -2 -217133168393644444| 


图 4.75 选择 测试 基线 


如 果 OneR 作为 基线 方案 ， 且 比较 字段 为 Percent_correct， 进 行 测试 的 结果 如 图 4.76 
所 示 。 实 验 者 显示 在 OneR 和 J48 的 结果 中 不 存在 统计 学 显著 性 差异 ， 然 而 ， 在 OneR 和 
ZeroR 之 间 存 在 统计 学 显著 性 差异 。 


Dataset (2) rules.On | (1) rules (3) trees 


(vw /1 {0/0/1) {0/1/0) 


图 4.76 测试 结果 
单 击 Displayed Columns( 显 示 列 ) 提 示 后 面 的 Select 按钮 ， 可 以 在 弹出 的 对 话 框 中 选择 


测试 输出 中 比较 矩阵 要 显示 的 列 ， 如 图 4.77 所 示 。 默 认 显示 全 部 学 习 方案 ， 但 用 户 也 可 以 
选择 只 输出 部 分 方案 列 。 


4.77 显示 列 


当选 择 Show std. Deviations( 显 示 标 准 偏差 ) 复 选 框 时 ， 可 以 产生 待 评 估 属 性 的 标准 
偏差 。 

单 击 Output Format( 输 出 格式 ) 按 钮 会 弹出 一 个 如 图 4.78 所 示 的 对 话 框 ， 让 用 户 选择 的 
Mean Precision( 均 值 精 度 ) 和 StdDev. Precision( 标 准 偏差 精度 ) 上 述 两 种 精度 的 默认 值 都 为 
2。 用 户 还 可 以 选择 输出 的 格式 ， 支 持 的 格式 有 : CSV、GNUPlot、HTML、LaTeX、Plain 
text (默认 )， 以 及 Significance only。 选 中 Show Average( 显 示 平均 ) 复 选 框 后 ， 会 在 输出 列 
表 中 追加 一 行 ， 列 出 每 列 的 平均 值 。 选 中 Remove filter classnames( 删 除 过 滤器 类 名 ) 复 选 
框 ， 可 以 从 正在 处 理 的 数据 集中 删除 过 滤器 的 名 称 和 选项 ， 要 知道 ，Weka 有 的 过 滤器 名 
称 可 能 非常 长 。 


OOuputfomat 


Nesn Precision Bs 
Stabev. Precision 2 
Output Eermat Psin Text ~ 
She hversev 加 


| Renove filter classnmes 
avaneed setup [See Resul tatrixPlainTert ~" | 
[er ] ewen | 


图 4.78 输出 格式 对 话 框 


Advanced setup( 高 级 设置 ) 可 以 让 用 户 得 到 更 多 的 控制 ， 如 图 4.79 所 示 ， 单 击 Choose 
按钮 可 以 在 六 种 结果 和 矩阵 中 进行 选择 ， 选 择 完成 后 ， 单 击 Choose 按钮 后 的 输入 框 ， 会 弹 
出 一 个 编辑 结果 矩阵 选项 的 通用 对 象 编辑 器 ， 包 含 了 上 述 的 选项 设置 ， 再 加 上 一 些 诸如 行 
名 称 宽度 的 选项 ， 以 及 是 否 列举 的 列 和 行 的 名 称 ， 即 在 名 称 前 添加 索引 前 级 “(x)”。 


ineat 
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4.79 选择 结果 和 矩阵 
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最 后 ， 读 者 已 经 知道 ， 单 击 Perform test 按钮 启动 测试 ， 完 成 测试 后 ， 会 在 Test output 
子 面板 中 输出 测试 结果 ， 并 且 在 Result list 子 面板 中 添加 一 个 条 目 。Save output( 保 存 输出 ) 
按钮 的 功能 在 下 节 讲 述 。 


4.4.3 保存 结果 


在 Test output( 测 试 输出 ) 子 面板 上 显示 的 信息 由 Result list( 结 果 列 表 ) 子 面板 当前 的 选择 
项 所 控制 。 单 击 不 同 条 目 会 导致 在 结果 子 面板 上 显示 对 应 于 该 条 目的 实验 结果 ， 如 图 4.80 
所 示 。 


4.80 结果 列表 


单 击 Save output 按钮 ， 可 以 将 在 测试 输出 子 面板 中 显示 的 结果 保存 到 文件 中 。 如 果 指 
定 的 文件 已 经 存在 ，Weka 会 弹出 如 图 4.81 所 示 的 对 话 框 ， 询 问 用 户 如 何 处 理 冲 突 ， 并 提 
供 四 种 处 理 方式 。 其 中 ，Append( 追 加 ) 按 钮 不 改变 原来 的 文件 信息 ， 只 是 在 原来 文件 的 末 
尾 添加 新 的 一 组 结果 ; Overwrite( 改 写 ) 按 钮 删除 原来 的 文件 信息 ， 改 写 为 新 的 一 组 结果 ; 
Choose new name( 选 择 新 名 称 ) 不 改变 原来 的 文件 ， 让 用 户 另 选 一 个 文件 ，Cancel( 取 消 ) 按 
钮 取消 保存 操作 。 不 管 怎样 ， 在 同一 段 时 间 只 可 以 保存 一 组 结果 ， 通 过 使 用 Append 按钮 
而 不 用 Overwrite 按钮 ， 用 户 可 以 将 所 有 的 结果 保存 到 同一 个 文件 中 。 


[ee [oeme |[Choosenewnome][ Cencel | 


图 4.81 文件 已 存在 对 话 框 


4.4.4 手把手 教 你 用 
1. 分 析 初步 


本 示例 分 析 上 一 节 “ 简 单 实验 初步 ”实验 的 结果 。 

首先 ， 完 成 “简单 实验 初步 ”实验 ， 然 后 单 击 Analyse 标签 页 切换 至 分 析 面 板 ， 在 分 
析 面 板 中 单 击 Experiment 按钮 获取 当前 实验 结果 ， 在 Source 子 面板 中 显示 “Got 300 
results”( 获 取 300 条 结果 )， 如 图 4.82 所 示 。 可 以 看 到 ， 在 结果 列表 中 添加 了 一 个 条 目 ， 
并 且 在 测试 输出 中 显示 三 条 可 用 的 结果 集 ， 这 是 在 设置 面板 中 选择 的 三 个 不 同学 习 方案 对 
iris 数据 集 的 训练 结果 ， 显 示 格 式 为 方案 名 称 、 方 案 选项 和 方案 版 本 号 。 

现在 ， 不 改变 任何 默认 测试 配置 ， 直 接 单 击 Perform test 按钮 。 实 验 者 会 在 结果 列表 中 
添加 了 一 个 条 目 ， 并 且 在 测试 输出 子 面板 中 显示 如 图 4.83 所 示 的 结果 。 可 见 ， 测 试 输出 分 
为 三 个 部 分 ， 第 一 个 部 分 是 测试 选项 概要 ; 第 二 部 分 是 比较 矩阵 ; 第 三 部 分 是 学 习 方案 


列表 。 


图 4.83 ”测试 输出 


下 面 分 述 这 三 个 部 分 。 

第 一 部 分 列 出 了 测试 的 选项 概要 。Tester 条 目 显示 使 用 哪 一 个 T- 测 试 方案 ，T- 测 试 使 
用 Testing with 设置 ，Analysing 条 目 显示 使 用 哪 一 个 比较 字段 ， 可 使 用 Comparison field 设 
置 ， Datasets 条 目 显示 所 使 用 的 数据 集 个 数 ， 可 在 设置 面板 中 的 Datasets 子 面板 中 设置 ; 
Resultsets 条 目 显示 使 用 的 学 习 方 案 数 目 ; Confidence 条 目 显示 统计 显著 性 水 平 ， 可 使 用 
Significance 设置 ，Sorted by 条 目 显示 排序 指标 (默认 为 自然 排序 )， 可 使 用 Sorting (asc.) by 
设置 。Date 条 目 显示 测试 日 期 时 间 。 

第 二 部 分 列 出 了 比较 矩阵 。 和 矩阵 中 ， 表 头 列 出 了 当前 比较 的 行 和 列 ， 行 为 Dataset， 列 
为 三 个 学 习 方案 。 每 一 个 数据 集 作 为 一 行 ， 显 示 正 确 率 百 分 比 。 由 于 本 例 只 选择 了 一 个 数 
据 集 ， 因 此 只 有 一 行 。 在 这 一 行 中 ，ZeroR 的 正确 率 为 33.33%，OneR 的 正确 率 为 
93.80%，J48 的 正确 率 为 94.73%。 标 记 v 和 * 表示 特定 结果 的 统计 显著 性 水 平 比 基 线 方案 
(当前 是 ZeroR) 在 指定 显著 性 水 平 ( 目 前 为 0.05) 上 是 更 好 (v) 还 是 更 坏 (*)。OneR 和 J48 的 统 
计 结 果 优 于 ZeroR 建立 的 基线 。 在 每 一 列 的 底部 显示 (x/y/z) 的 形式 ， 表 明 与 实验 中 使 用 的 
数据 集 的 基线 方案 相 比 ， 所 在 列 的 方案 是 优 于 (x)、 相 同 (y)， 或 不 如 (z) 的 次 数 。 在 本 例 中 
只 有 一 个 数据 集 ，OneR 优 于 ZeroR 一 次 ， 且 与 ZeroR 比较 ， 相 同 或 不 如 的 次 数 为 0， 因 
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此 使 用 (1/0/0) 表 示 ; 同样 ，J48 也 比 ZeroR 更 好 ， 也 使 用 (1/0/0) 表 示 。 注 意 到 第 一 列 显 示 (w/ 
/*)， 是 为 了 提醒 用 户 (x/y/z) 的 规则 ，x 对 应 v( 优 于 )，z 对 应 *( 不 如 )。 

数据 集 iris 一 行 的 开始 部 分 有 一 个 值 (100)， 表 示 当 前 测试 的 运行 次 数 。 

第 三 部 分 比较 简单 ， 只 是 显示 当前 的 学 习 方 案 。 

现在 ， 选 中 Show std. Deviations 复 选 框 ， 然 后 单 击 Perform test 按钮 再 次 启动 测试 ， 
在 测试 输出 子 面板 中 显示 如 图 4.84 所 示 的 结果 。 与 图 4.83 相 比 ， 图 4.84 在 单元 格 括号 中 
显示 了 评估 的 标准 偏差 。 


B 6' -2459427002147861445 


-C 0.25 -M 2' -217733168393644444 


4.84 ”显示 标准 偏差 


然后 ， 单 击 Comparison field 提示 后 面 的 下 拉 列 表 框 ， 设 置 为 Number_correct 作为 比 
较 字 段 ， 并 单 击 Perform test 按钮 ， 测 试 输出 子 面板 中 显示 如 图 4.85 所 示 的 比较 矩阵 。 以 
第 一 列 为 例 ， 说 明 如 何 与 Percent_correct 相 比较 。 我 们 已 知 ZeroR 的 正确 率 为 33.33%， 而 
正确 数量 为 5.00， 表 面 上 看 ， 这 二 者 并 没有 直接 的 联系 。 经 过 分 析 ， 实 验 类 型 是 十 折 交 又 
验证 ， 也 就 是 将 iris 数据 集 里 的 150 个 实例 分 为 10 折 ， 每 折 15 个 实例 ， 这 样 ， 使 用 其 中 
一 折 作为 交叉 验证 的 测试 集 ， 在 15 个 实例 有 5 个 实例 预测 正确 ， 因 此 正确 率 为 33.33%， 
说 明 Percent_correct 和 Number_ correct 二 者 只 是 在 显示 的 形式 上 不 同 ， 并 没有 实质 差异 。 


(1) rules.2 | (2) rules (3) trees 


(wy 人 1 (UVo0 (2070) 
图 4.85 正确 数量 作为 比较 字段 的 结果 
2. 更 改 基线 方案 


本 示例 主要 完成 更 改 基 线 方案 、 总 结 测试 和 排名 测试 等 实验 。 

首先 切换 至 设置 面板 ， 在 上 一 例 的 基础 上 添加 glass 数据 集 ， 其 余 选 项 均 不 变 。 在 运 
于 面板 重新 运行 实验 ， 然 后 切换 至 分 析 面 板 。 单 击 Experiment 按钮 导入 运行 结果 ， 再 次 单 
击 Perform test 按钮 对 实验 结果 进行 分 析 ， 测 试 结果 如 图 4.86 所 示 。 可 见 ， 添 加 一 个 数据 
集 只 不 过 在 测试 结果 比较 矩阵 中 多 列 出 一 行 ， 其 他 并 没有 什么 变化 。 当 然 ， 我 们 可 以 多 添 
加 一 些 数据 集 ， 比 较 不 同学 习 方案 在 不 同 数据 集 上 的 表现 。 

下 一 步 是 更 改 基 线 方案 。 单 击 Test base 提示 后 面 的 Select 按钮 ， 在 弹出 窗口 中 选择 
J48 为 新 的 基线 方案 ， 如 图 4.87 所 示 。 然 后 单 击 Select 按钮 关闭 对 话 框 。 

再 次 单 击 Perform test 按钮 对 实验 结果 进行 分 析 ， 更 改 基线 方案 后 的 比较 矩阵 如 图 4.88 
所 示 。 可 以 看 到 ， 更 改 基 线 方案 后 ， 只 是 将 基线 作为 其 他 方案 比较 的 对 象 ， 将 基线 方案 移 
到 比较 矩阵 的 第 一 列 ， 本 例 中 ，ZeroR 两 次 都 不 及 J48 基线 方案 ，OneR 有 一 次 (在 iris 数据 
集 上 ) 和 J48 相当 ， 一 次 (在 glass 数据 集 上 ) 不 如 J48。 通 过 比较 和 矩阵 ， 容 易 得 到 不 同 的 学 习 


~ 


方案 在 多 个 不 同 数据 集 上 的 统计 性 能 排名 ， 从 而 了 解 学 习 方 案 的 综合 性 能 排名 。 当 然 ， 如 
果 学 习 方 案 和 数据 集 的 数目 很 大 的 时 候 ， 通 过 人 了 眼 比较 不 同学 习 方案 的 综合 性 能 有 些 困 
难 ， 因 此 ，Weka 提供 了 总 结 测试 和 排名 测试 ， 帮 助 用 户 较 快 地 得 出 结论 。 


Dataset (1) rules.Ze | (2) rules (3) trees 
iris (100) 33.33 | 93.80v 94.73v 
Glass (100) 35.51 | S57.03v 67.63v 

(w/e) 1 (2/0/0) (2/0/0) 
Key: 


(1) rules.ZeroR '* 48055541465867954 
(2) rules.OneR '-B 6' -2459427002147861445 
(3) trees.J48 '-C 0.25 -M 2° -217733168393644444 


图 4.86 两 个 数据 集 的 运行 结果 


Irules. ZeroR “” 49055541465867954 
rules. 0neR“-B 6”-2459427002147851445 


4.87 选择 新 的 基线 方案 


DacaseC (3) trees.J4 | (1) rules (2) rules 

iris {100) 94.73 | 33.33 * 93.80 

Glass {100) 67.63 1 35.51 。 57.03 * 
(vi /*) 1 {0/0/2) (0/1/1) 


4.88 ”更改 基线 方案 后 的 比较 矩阵 


下 一 步 将 基线 方案 改 为 Summary， 进 行 总 结 测试 。 重 新 测试 后 得 到 如 图 4.89 所 示 的 测 
试 结果 。 在 图 4.89 中 ， 第 一 行 (-2 2) 表示 b 列 (OneR) 优 于 a 行 (ZeroR) 两 次 ， 且 c 列 (J48) 也 
优 于 a 行 两 次 。 主 对 角 线 上 的 单元 格 里 全 是 “-”， 因 为 行 下 标 与 列 下 标 相 同 表 示 是 同一 个 
学 习 方案 ， 没 有 比较 的 意义 。 括 号 中 的 数字 表示 该 单元 格 所 在 列 对 应 的 方案 与 所 在 行 对 应 
的 方案 的 对 比 ， 在 统计 显著 性 上 胜出 的 次 数 。0 表示 单元 格 所 在 列 对 应 的 方案 与 所 在 行 对 
应 的 方案 相 比 ， 在 统计 显著 性 上 没有 得 分 。 


a b ¢ (No. of datasets where [col] >> [rowv]) 
~ 2 (2) 2 (2) | a= (1) rules.ZeroR '，48055541465867954 
0 (0) ~2 (1) | b= (2) rules.OneR '-B 6' -2459427002147861445 
0 (0) 0 (0) - 1c= (3) trees.J48 '-C 0.25 -M 2' -217733168393644444 


图 4.89 总结 测试 结果 
最 后 一 步 将 基线 方案 改 为 Ranking， 进 行 排名 测试 。 重 新 测试 后 得 到 如 图 4.90 所 示 的 


测试 结果 。 排 名 测试 根据 方案 对 其 他 方案 的 统计 显著 性 ， 得 到 优 于 (>) 和 不 及 (<) 的 测试 总 
数 ， 这 两 个 总 数 构成 测试 结果 矩阵 的 第 二 列 和 第 三 列 。 第 一 列 C - <) 是 优 于 的 数量 减 去 
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不 及 的 数量 ， 该 列 用 来 产生 排名 。 本 例 中 ，J48 排名 第 一 ，OneR 排名 第 二 ，ZeroR 排名 


末 位 。 


>< > 《 Resultsec 
3 3 0trees.J48 '-C 0.25 -M 2' -217733168393644444 
1 2 1 rules.OneR '-8 6' -2459427002147861445 

-4 0 《rules.ZeroR '' 48055541465867954 


4.90 ”排名 测试 结果 


4.1 
4.2 
4.3 
4.4 
4.5 
4.6 
4.7 


… 人 se 课 后 强化 练习 se 司 - 


既然 有 了 探索 者 和 知识 流 界 面 ， 为 什么 还 需要 实验 者 ? 
简 述 简单 实验 设置 的 步 又。 

与 简单 模式 相 比 ， 实 验 者 高 级 模式 增加 了 什么 功能 ? 
远程 实验 有 什么 用 处 ? 远程 实验 的 难点 是 什么 ? 

多 核 CPU 是 否 是 线程 数 越 多 性 能 越 好 ? 
什么 是 基线 方案 ? 设置 基线 方案 的 目的 是 什么 ? 

总 结 测试 和 排名 测试 有 什么 用 处 ? 各 自 有 什么 特点 ? 


Weka 图 形 用 户 交 互 界面 十 分 丰富 ， 有 探索 者 界面 、 知 识 流 界面 和 实 
验 者 界面 。 在 这 些 交 互 界面 的 背后 ， 隐 藏 着 Weka 的 基本 功能 。 这 些 功 能 
可 以 直接 通过 命令 行 界面 进行 访问 ， 用 户 通过 输入 命令 ， 可 以 更 好 地 最 大 
用 Weka 提供 的 功能 。 因 为 命令 行 提供 一 些 图 形 用 户 界 面 不 曾 提 
功能 ， 并 且 消 耗 更 少 的 内 存 。 
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5.1 令 行 界面 介绍 


Weka 提供 两 种 命令 行 界面 ， 一 种 是 直接 使 用 操作 系统 的 命令 行 ， 如 Windows 的 cmd 
窗口 ， 另 一 种 是 Simple CLI， 或 称 为 简单 命令 行 。 

在 Weka GUI 选择 器 窗口 中 ， 单 击 Simple CLI 按钮 就 能 打开 简单 命令 行 界面 ， 如 
5.1 所 示 。 


5.1 Weka 简单 命令 行 界面 


Weka 简单 命令 行 界面 很 简单 ， 窗 口 的 主要 部 分 是 一 个 只 读 的 多 行文 本 框 ， 用 于 显示 
命令 执行 的 结果 。 窗 口 底 部 是 一 个 单行 输入 文本 框 ， 用 于 输入 命令 。 和 DOS 命令 行 相 
似 ， 输 入 命令 的 单行 文本 框 可 以 使 用 向 上 和 向 下 箭头 来 查找 以 前 输入 过 的 命令 ， 可 以 在 原 
来 命令 的 基础 上 修改 ， 或 直接 按 Enter 键 再 次 执行 命令 。 

为 了 区 分 文件 和 类 ， 文 件 名 必须 以 绝对 路 径 或 “\” 或 “ /” 开 始 ， 后 者 是 home 目录 
的 快捷 方式 。 另 外 ，Alt+Backspace 组 合 键 用 于 在 命令 行 中 成 块 删除 文本 。 

Weka 简单 命令 行 支持 如 下 命令 。 

1) java <classname> <args> [ > file] 

使 用 给 定 的 参数 (如 果 有 的 话 ) 调 用 一 个 Java 类 ， 前 者 在 args 位 置 指定 ， 后 者 在 
classname 位 置 指定 ， 还 可 以 用 重 定向 (>) 指 定 将 结果 输出 到 文件 。 


2) break 
以 友好 的 方式 停止 当前 线程 ， 例 如 ， 正 在 运行 的 分 类 器 。 
3) kill 


以 不 友好 的 方式 停止 当前 线程 。 只 限于 在 break 命令 不 起 作用 的 场合 ， 才 能 使 用 此 
命令 。 
4) capabilities <classname> <args> 


列 出 指定 类 的 功能 。 例 如 ， 列 出 带 选项 的 分 类 器 功能 : 


capabilities weka.classifiers.meta.Bagging -W weka.classifiers.trees.J48 


5)cls 
清除 输出 区 域 。 


6) history 

打印 所 有 执行 过 的 命令 。 
7) exit 

退出 简单 命令 行 界面 。 
8) help <command> 


如 果 不 带 命令 名 称 作为 参数 ， 显 示 可 用 命令 的 概要 说 明 ， 如 图 5.1 所 示 ; 否则 ， 显 示 
指定 命令 的 更 详细 的 帮助 。 


5.1.1 命令 调用 

为 了 调用 Weka 中 的 类 ， 只 需要 在 类 的 前 面 添加 前 缀 java。 该 命令 告诉 简单 命令 行 界 
面 加 载 一 个 类 ， 并 带 给 定 的 参数 执行 命令 。 例 如 ， 可 以 调用 J48 分 类 器 对 芝 尾 花 数据 集 进 
行 分 类 ， 使 用 如 下 命令 : 


java weka.classifiers.trees.J48 -t c:/Weka-3-7/data/iris.arff 


上 述 命令 调用 Java 虚拟 机 ， 并 指示 虚拟 机 执行 J48 分 类 器 对 高 尾 花 数据 集 分 类 。 在 简 
单 命令 行 界 面 中 已 经 加 载 了 Java 虚拟 机 ， 运 行 结果 如 图 5.2 所 示 。 


图 5.2 J48 运行 结果 


注意 到 J48 前 的 用 句点 “.” 分 割 的 英文 单词 ， 这 是 Java 包 。Weka 以 类 似 于 目录 层次 
结构 的 形式 来 组 织 包 ， 只 不 过 采用 句点 “.” 来 蔡 代 目录 层次 的 反 斜 杠 “\”。 例 如 ， 上 面 
执行 的 程序 称 为 48， 位 于 trees 包 之 下 ， 而 trees 包 又 是 classifiers 包 的 子 包 ，classifiers 包 
又 是 所 有 包 的 根 weka 包 的 子 包 。 下 一 节 将 给 出 更 详细 的 包 结构 。“-t” 选 项 指定 下 一 个 参 
数 为 训练 文件 的 名 称 ， 这 里 假设 的 天 气 数据 集 位 于 data 子 目录 下 。 

如 果 在 命令 后 添加 “> 文件 名 ”， 那 么 Weka 会 执行 基本 的 重 定 向 操作 ， 也 就 是 将 输 
出 文字 保存 到 文件 中 。 例 如 : 


java weka.classifiers.trees.J48 -t c:/Weka-3-7/data/iris.arff > j48.txt 


执行 命令 后 ，Weka 不 再 将 命令 结果 显示 在 窗口 中 ， 仅 显示 完成 重 定向 输出 到 文件 的 
信息 ， 如 图 5.3 所 示 。 在 Weka 的 安装 目录 下 ， 可 以 找到 “j48.txt” 文 件 ， 可 以 使 用 任意 文 
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本 编辑 器 查看 其 内 容 。 
Om Eee 


exis 
help <command> 


> java veka.classifiers. trees.748 -c c:/Weka-3-7/dara/iris.arff > J48.cxe 


| Finished redirecting ourpar ro "]43.cxt' 


5.3 重 定向 的 输出 


值得 注意 的 是 ， 在 重 定向 符号 “>” 的 前 后 都 应 该 有 一 个 空格 符 ， 否 则 Weka 就 不 会 认 
定 是 重 定 向 ， 而 认为 是 另 一 个 参数 的 一 部 分 。 
5.1.2 命令 自动 完成 

通过 按 下 Tab 键 ， 以 java 开始 的 命令 能 够 支持 类 名 和 文件 名 的 自动 完成 ， 这 个 功能 节 
省 了 用 户 输入 的 时 间 ， 并 减少 了 精确 记忆 复杂 名 称 的 烦琐 工作 。 如 果 匹 配 类 名 和 文件 名 
不 止 一 个 ，Weka 会 列 出 所 有 可 能 的 匹配 。 另 外 ， 使 用 Alt + Backspace 组 合 键 可 以 成 批 
删除 命令 。 

1) 包 名 的 自动 完成 

假如 输入 如 下 命令 : 


java weka.cl 


然后 再 按 下 Tab 键 ， 简 单 命令 行 窗口 会 显示 匹配 两 个 包 名 ， 即 weka.classifiers 和 
weka.clusterers， 如 图 5.4 所 示 。 如 果 用 户 想 选择 分 类 器 包 ， 则 可 以 再 命令 末尾 再 输入 一 个 
a 字 符 ， 然 后 再 按 下 Tab 键 ， 用 户 会 惊喜 地 发 现 Weka 已 经 自动 完成 了 剩余 的 输入 。 
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图 5.4 包 名 自动 完成 


2) 类 名 的 自动 完成 
假如 输入 如 下 命令 : 


java weka.classifiers.meta.A 


然后 再 按 下 Tab 键 ， 简 单 命令 行 窗口 会 显示 匹配 三 个 类 名 ， 即 weka.classifiers meta.AdaBoostM1、 
weka.classifiers.meta.AdditiveRegression 和 weka.classifiers meta AttributeSelectedClassifier， 
用 户 可 按照 前 面 “ 包 名 的 自动 完成 ”所 讲述 的 方法 完成 输入 。 

3) 文件 名 的 自动 完成 

为 了 让 Weka 能 够 确定 当前 光标 下 的 字符 串 到 底 是 类 名 还 是 文件 名 ， 文 件 名 必须 使 用 
绝对 路 径 或 者 以 句点 “.” 开 头 的 相对 路 径 。 例 如 ， 绝 对 路 径 的 例子 有 : UNIX/Linux 使 用 
/some/path/file，Windows 则 使 用 Ci\Some\Path\file; 相对 路 径 的 例子 有 : UNIX/Linux 使 


用 ./some/other/path/file，Windows 则 使 用 \Some\Other\Path\file。 


5.2 Weka 结构 


前 面 章 节 已 经 介绍 了 如 何 使 用 探索 者 界面 来 调用 过 滤器 和 学 习 方 案 ， 以 及 使 用 知识 流 
界面 来 将 过 滤器 和 学 习 方 案 等 组 件 连接 起 来 。 为 了 深入 研究 Weka， 有 必要 探究 Weka 是 怎 
样 将 这 些 组 合 在 一 起 的 。Weka 分 发 软件 包 中 的 包 文档 (Package Documentation) 已 经 包含 了 
详细 的 、 最 新 的 文档 信息 。 比 起 在 探索 者 和 知识 流 界 面 中 的 对 象 编辑 器 中 单 击 More 按钮 
得 到 的 学 习 方 案 和 过 滤 方 案 的 描述 ， 包 文档 信息 的 技术 性 更 强 了 很 多 。 它 是 使 用 Sun 的 
Javadoc 工具 ， 从 源 代码 中 的 注释 直接 生成 的 。 要 想 了 解 文档 结构 ， 有 必要 掌握 Java 程序 
的 一 些 基 础 知识 ， 而 且 ， 这 也 为 后 续 章节 的 Weka API 学 习 ， 以 及 源 代码 分 析 打 下 基础 。 


5.2.1 类 实例 和 包 


每 个 Java 程序 都 实现 为 一 个 类 或 类 的 集合 。 在 面向 对 象 编程 中 ， 一 个 类 是 变量 的 集合 
以 及 对 它们 进行 操作 的 一 些 方法 的 集合 ， 它 们 共同 定义 了 属于 某 个 类 的 对 象 的 行为 。 对 象 
就 是 实例 化 的 类 ， 该 类 的 所 有 变量 都 已 经 赋值 。 在 Java 中 ， 对 象 也 称 为 类 的 实例 。 不 幸 的 
是 ， 这 与 本 书 前 文 使 用 的 术语 有 所 冲突 ， 类 (class) 和 实例 (instance) 也 出 现在 完全 不 同 的 机 
器 学 习 领 域 的 背景 下 。 因 此 ， 有 时 需要 从 上 下 文 推断 出 这 些 术 语 的 本 意 。 本 书 中 ， 在 Java 
背景 下 使 用 类 和 对 象 这 两 个 术语 ， 而 在 机 器 学 习 背 景 下 则 使 用 类 别 和 实例 两 个 术语 ， 以 示 
区 别 。 

在 Weka 中 ， 类 用 于 封装 特定 的 学 习 算 法 的 实现 ， 它 的 一 些 功能 可 能 依赖 于 其 他 类 。 
例如 ， 前 文 所 述 的 J48 类 构建 了 C4.5 决策 树 ，Java 虚拟 机 每 次 执行 J48 时 ， 都 会 为 构建 和 
存储 决策 树 分 类 器 分 配 内 存 以 创建 该 类 的 实例 。J48 类 的 实例 化 对 象 包括 算法 、 所 构建 的 
分 类 器 ， 以 及 输出 分 类 器 的 程序 。 

通常 将 较 大 的 程序 分 解 为 一 个 以 上 的 类 ， 以 方便 理解 和 实现 ， 毕 竟 分 解 是 将 复杂 问题 
简单 化 的 重要 方法 。 例 如 ，J48 类 实际 上 并 不 包含 构建 决策 树 的 代码 ， 它 只 是 将 完成 大 部 
分 工作 的 其 他 类 的 实例 的 引用 包括 进来 。 由 于 Weka 实现 了 很 多 机 器 学 习 算法 ， 添 加 算法 
就 意味 着 添加 类 。 当 Weka 有 很 多 类 以 后 ， 这 些 类 就 变 得 很 难 理解 和 导航 ， 这 里 的 导航 是 
指 从 一 个 类 的 文档 说 明 跳 转 到 另 一 个 相关 类 的 文档 说 明 。Java 允许 将 类 组 织 成 包 的 形式 ， 
包 的 概念 不 难 理解 ， 它 仅仅 是 一 个 包含 相关 类 集合 的 目录 ， 例 如 ， 前 面 提 到 的 trees 包 就 包 
含 了 实现 决策 树 的 所 有 类 。 按 照 对 应 的 目录 层次 结构 ， 将 包 组 织 为 层次 结构 。 例 如 : trees 
包 是 classifiers 包 的 一 个 子 包 ， 而 classifiers 包 本 身 又 是 整体 weka 包 的 一 个 子 包 。 

在 Weka 安装 目录 的 doc 子 目 录 下 ， 用 户 可 在 资源 管理 器 下 双击 index.html 文件 ， 这 
样 会 启动 Web 浏览 器 并 打开 API 文档 ， 如 图 5.5 所 示 。 注 意 到 页 面 顶部 有 两 个 超 链接 一 一 
FRAMES 和 NO FRAMES， 图 5.5 使 用 的 是 FRAMES 风格 ， 其 中 ， 左 上 部 显示 的 是 按 字 
母 顺序 排列 的 所 有 Weka 包 的 列表 ， 左 下 部 显示 按 字 母 顺序 排列 的 全 部 Weka 类 的 列表 ， 
单 击 某 个 类 的 名 称 则 在 页 面 的 主要 部 分 显示 该 类 的 API 说 明 。 使 用 NO FRAMES 风格 则 可 
以 看 到 更 为 简洁 的 信息 。 
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下 面 按 照 其 重要 顺序 介绍 Weka 的 包 。 


5.2.2 weka.core 包 


core( 核 心 ) 包 是 Weka 系统 的 核心 ， 几 乎 所 有 的 其 他 类 都 访问 核心 包 里 的 类 。 可 以 单 击 
页 面 左上 部 的 weka.core 超 链接 以 了 解 包 内 包含 什么 内 容 。 如 图 5.6 所 示 ， 页 面 左下 部 显示 
核心 包 内 的 对 象 ， 按 功能 将 其 分 为 Interfaces( 接 口 )、Classes( 类 )、Enums( 枚 举 ) 和 
Exceptions( 例 外 ) 四 个 部 分 。 前 两 个 部 分 比较 重要 ， 其 中 ，Classes 部 分 列 出 了 核心 包 里 的 
类 ，Interfaces 部 分 则 列 出 核心 包 提供 的 接口 。 接 口 与 类 相似 ， 唯 一 的 区 别 是 接口 本 身 基 本 
不 做 任何 工作 ， 它 仅仅 列 出 一 些 方法 而 没有 真正 实现 ， 只 有 这 些 接口 的 实现 类 才 为 这 些 方 
法 提供 实现 代码 。 例 如 ，OptionHandler 接口 定义 了 处 理 命令 行 选项 的 各 种 方法 ， 实 现 该 接 
口 的 类 (包括 全 部 的 分 类 器 ) 必 须 提供 这 些 方法 的 实现 代码 。 


Interfaces 


图 5.6 核心 包 内 的 对 象 


核心 包 中 的 关键 类 是 Attribute、Instance 和 Instances。Attribute 类 的 对 象 表示 一 个 属 
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性 ， 包 括 属性 的 名 称 、 属 性 的 类 型 ， 如 果 是 标 称 型 或 字符 串 型 属性 ， 则 还 应 该 包括 可 能 
值 。Instance 类 的 对 象 包含 特定 实例 的 属性 值 。Instances 类 的 对 象 包 含有 序 的 实例 集合 ， 
即 数据 集 。 通 过 单 击 这 些 类 所 对 应 的 超 链接 ， 可 以 了 解 这 些 类 的 更 多 有 关 信 息 。 


5.2.3 weka.classifiers 包 


classifiers 包 中 包含 大 部 分 分 类 算法 和 数值 预测 算法 的 实现 。 前 文 已 经 叙述 过 ，Weka 
将 分 类 和 回归 都 归 为 分 类 问题 ， 因 此 数值 预测 算法 也 包含 在 分 类 器 中 ， 因 为 数值 预测 可 以 
解释 为 是 连续 型 类 别 值 的 预测 。 在 该 包 中 最 为 重要 的 是 Classifier 接口 ， 它 定义 了 分 类 或 数 
值 预测 方案 的 总 体 结构 ， 其 他 的 分 类 器 都 要 实现 该 接口 。Classifier 接口 包含 三 个 重要 的 方 
法 : buildClassifier()、classifyInstance() 和 distributionForInstance()。 在 面向 对 象 编程 的 术语 
中 ， 学 习 算 法 都 是 Classifier 的 子 类 ， 因 此 自动 继承 了 这 三 种 方法 ， 并 且 每 个 学 习 方案 重新 
定义 如 何 建立 一 个 分 类 器 ， 以 及 如 何 对 实例 进行 分 类 。 这 样 ， 给 出 一 个 从 其 他 Java 代码 来 
构建 和 使 用 分 类 器 的 统一 接口 。 因 此 ， 相 同 的 评估 模块 可 以 用 于 对 Weka 中 任意 分 类 器 的 
性 能 进行 评估 。 

现在 看 一 个 例子 ， 单 击 weka.classifiers.trees 包 下 的 DecisionStump 分 类 器 ， 这 是 构建 
一 个 简单 的 一 级 二 元 决策 树 类 ， 缺 失 值 作 为 一 个 额外 的 分 支 。 其 文档 页 面 如 图 5.7 所 示 ， 
在 顶部 附近 可 以 看 到 ， 该 类 的 完全 限定 名 称 为 weka.classifiers.trees.DecisionStump。 每 当 用 
户 需 要 构建 一 个 决策 树 ， 必 须 在 命令 行 中 使 用 这 个 相当 长 的 名 称 。 正 如 读者 所 见 ， 长 长 的 
类 名 位 于 一 个 树 形 结构 的 末端 ， 显 示 相 关 的 类 层次 结构 的 一 小 部 分 ，DecisionStump 是 
weka.classifiers.Classifier 的 一 个 子 类 ， 后 者 本 身 又 是 java.lang.Object 的 子 类 。 在 Java 中 ， 
Object 类 是 最 普遍 的 类 ， 所 有 的 类 都 自动 继承 Object 类 。 
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图 5.7 DecisionStump 决策 树 


网 页 首先 显示 该 类 的 一 些 通用 信息 ， 如 简介 、 版 本 、 作 者 等 ， 然 后 给 出 该 类 的 构造 函 
数 和 方法 的 索引 。 构 造 函数 是 一 种 特殊 的 方法 ， 在 创建 一 个 该 类 的 对 象 时 进行 调用 ， 通 常 
在 构造 函数 中 初始 化 共同 定义 其 状态 的 变量 。 方 法 的 索引 列 出 了 每 一 个 方法 的 名 称 、 参 数 
的 类 型 以 及 其 功能 的 简短 描述 。 在 这 些 索引 之 下 ， 网 页 更 详细 地 说 明 构 造 函 数 和 方法 。 

DecisionStump 重 写 了 Classifier 的 distributionForInstance() 方 法 和 classifyInstance() 方 
法 ， 后 者 用 于 对 实例 进行 分 类 。 此 外 ， 它 还 包含 getCapabilities()、 getRevision() 、 
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globalInfo()、toSource()、toString0 〇 和 main() 方 法 。 其 中 ，getCapabilities() 方 法 由 通用 对 象 
编辑 器 调用 ， 以 提供 学 习 方 案 的 能 力 信息 。 在 调用 buildClassifier() 方 法 时 ， 会 针对 训练 数 
据 检 查 学 习 方案 的 能 力 ， 如 果 分 类 器 所 描述 的 能 力 与 训练 数据 特性 不 匹配 ， 则 抛 出 一 个 错 
误 。Classifier 类 中 就 有 getCapabilities0 方 法 ， 默 认 情况 下 ， 该 方法 启用 所 有 功能 ， 即 没有 
任何 限制 。 这 使 得 Weka 新 程序 员 更 容易 入 门 ， 因 为 他 们 不 需要 在 一 开始 就 要 学 习 并 分 辨 
不 同 分 类 器 的 特定 能 力 。getRevision() 方 法 简单 地 返回 分 类 器 的 版 本 号 ，weka.core 包 有 一 
个 工具 类 将 它 打 印 到 屏幕 上 。 在 用 户 报告 问题 时 需要 说 明 版 本 号 ，Weka 开发 维护 人 员 需 
要 用 它 来 诊断 和 调试 问题 。globalInfo() 方 法 返回 一 个 描述 分 类 器 字符 串 ， 以 及 该 方案 的 选 
项 ， 在 通用 对 象 编辑 器 窗口 中 单 击 More 按钮 显示 这 些 信息 。toString() 方 法 返回 分 类 器 的 
文字 表述 ， 用 于 当 它 显示 在 屏幕 上 时 。toSource() 方 法 用 于 获取 训练 过 的 分 类 器 的 源码 表 
示 。 当 从 命令 行 请 求 决策 树 时 ， 调 用 main() 方 法 。 换 句 话说 ， 每 次 输入 如 下 命令 : 
java weka.classifiers.trees.DecisionStump 


main() 方 法 就 会 执行 ， 以 测试 本 Java 类 是 否 可 用 。 所 有 的 学 习 方 法 和 过 滤 算法 都 实现 
了 main( 方 法 ， 如 果 类 中 存在 main0 方 法 ， 就 可 以 在 命令 行 中 运行 。 


5.2.4 其 他 包 


其 他 一 些 包 也 值得 一 提 ， 例 如 : weka.associations、weka.clusterers、weka.datagenerators、 
weka.estimators、weka.filters 和 weka.attributeSelection。weka.associations 包 中 包含 关联 规 
则 的 学 习 器 ， 将 这 些 学 习 器 放 在 单独 的 包 中 是 因为 关联 规则 与 分 类 器 存在 本 质 的 不 同 。 
weka.clusterers 包 中 包含 无 监督 学 习 的 方法 。 使 用 weka.datagenerators 中 的 类 可 以 产生 人 工 
数据 。weka.estimators 包 中 包含 一 个 通用 的 Estimator 类 ， 它 计算 不 同类 型 的 概率 分 布 ， 其 
子 类 可 用 于 朴素 贝 叶 斯 算法 。 

在 weka.filters 包 中 ，Filter 类 定义 了 包含 过 滤 算 法 的 类 的 一 般 结 构 ， 这 些 都 实现 为 
Filter 类 的 子 类 。 过 滤器 可 以 像 分 类 器 一 样 用 在 命令 行 中 。weka.attributeSelection 包 包 含 一 
些 属性 选择 的 类 。weka.filters.supervised.attribute 的 AttributeSelectionFilter 使 用 的 类 ， 也 可 
以 分 别 调用 。 


5.3 ”命令 行 选项 


在 前 面 的 例子 中 ， 在 命令 行 上 采用 -t 选项 指定 学 习 算 法 所 使 用 的 训练 文件 名 称 。 还 有 
许多 其 他 选项 可 以 用 于 全 部 的 学 习 方 案 ， 也 有 一 些 只 适用 于 特定 学 习 方 案 的 选项 。 如 果 使 
用 -h 或 -help 选项 调用 学 习 方案 ， 或 者 根本 不 带 任何 命令 行 选项 ，Weka 会 显示 可 用 的 选 
项 ， 首 先是 常规 选项 ， 然 后 是 特定 学 习 方 案 的 选项 。 例 如 ， 在 命令 行 界面 ， 输 入 如 下 命令 : 


java weka.classifiers.trees.J48 -hb 


命令 行 窗口 就 会 显示 如 图 5.8 所 示 的 运行 结果 。 其 中 ， 首 先 显 示 的 是 对 所 有 的 学 习 方 
案 都 适用 的 常规 选项 ， 然 后 是 只 适用 于 J48 的 特定 选项 。 


为 了 更 清楚 地 学 习 ， 下 


5.3.1 常规 选项 


表 5.1 中 的 选项 确定 哪些 数据 用 于 训练 及 测试 ， 如 何 评估 分 类 器 ， 以 及 显示 什么 样 的 
统计 数据 。 例 如 ， 当 使 用 独立 测试 集 来 评估 学 习 方 案 时 ，-T 选项 用 于 提供 测试 文件 的 名 
称 。 默 认 情 况 下 ， 类 别 属 性 是 ARFF 文件 中 的 最 后 一 个 属性 ， 但 也 可 以 声明 另 一 个 属性 为 
类 别 属性 ， 只 需 使 用 -ce 选项 后 紧 接 期 望 属性 的 位 置 ，1 代表 第 一 个 属性 ，2 代表 第 二 个 属 


选 项 
-h or -help 
-synopsis or -info 


-t < 训练 文件 名 称 > 


运行 结果 


图 5.8 


i 就 分 别 对 常规 选项 和 特定 选项 进行 解释 。 


表 5.1 Weka 学 习 方 案 的 常规 选项 


功 能 
输出 帮助 信息 
与 bh 选项 一 起 使 用 ， 输 出 分 类 器 的 简介 
设置 训练 文件 


-T < 测试 文件 名 称 > 设置 测试 文件 。 如 果 空 缺 ， 则 用 训练 数据 进行 交叉 验证 

-c< 类 别 索引 > 设置 类 别 属性 索引 ， 默 认为 “last”， 即 最 后 一 个 属性 为 类 别 属性 
必 < 折 数 > 设置 交叉 验证 的 折 数 ， 默 认为 10 

-no-cV 不 进行 交叉 验证 

-split-percentage < 百分比 > 设置 训练 /测试 集 分 割 的 百分比 ， 例 如 : 66 

-preserve-order 保持 按 百分比 分 割 的 (实例 ) 顺 序 

-s < 随机 数 种 子 > 设置 进行 交叉 验证 或 按 百 分 比分 割 随机 数 种 子 ， 默 认为 1 

-< 成 本 矩阵 文件 名 称 > 设置 成 本 矩阵 文件 


-disable < 逗号 分 隔 的 评估 度 
量 名 称 列表 > 


以 逗号 分 隔 的 不 打印 输出 的 度量 名 称 列表 。 

可 选 度 量 : Correct、Incorect、Kappa、Total cost、Average cost、 
KB relative 、 KB Information 、 Complexity 0 、 
Complexity scheme 、 Complexity improvement 、MAE 、RMSE 、 
RAE、 RRSE、 Coverage、 Region size、 TP rate、FP rate、Precision、 
Recall、F-measure、MCC、ROC area、PRC area 


Correlation 、 
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"weka.classifiers. 


evaluation.output.prediction. 


AbstractOutput + 选项 " 


-p 范围 


-distribution 


-I 
-Z < 类 名 > 


-xml 文件 名 | xml- 字 符 串 
-threshold-file < 文件 > 


-threshold-label < 标签 > 


一 一 Wil 
续 表 
选 项 功 能 
设置 模型 的 输入 文件 。 当 文件 名 以 .xml 结尾 时 ， 加 载 PMML 文件 ， 
| 入 3 
人 如 果 加 载 失 败 ， 则 从 XML 文件 中 加 载 选项 
设置 模型 的 输出 文件 。 当 文件 名 以 xml 结尾 ， 仅 将 选项 保存 至 XML 
.| 和 kb 
ed 文件 ， 不 保存 模型 
总 不 输出 训练 数据 统计 信息 
着 只 输出 统计 信息 ， 不 输出 分 类 器 
对 每 个 类 输出 详细 的 信息 检索 统计 信息 
汪 输出 信息 理论 统计 信息 
-Classifications 


使 用 指定 类 产生 分 类 输出 。 例 如 : 


weka.classifiers.evaluation.output.prediction.PlainText 


输出 测试 实例 (或 训练 实例 ， 如 果 不 提供 测试 实例 并 且 使 用 -no-cv 选 
项 ) 的 预测 ， 以 及 在 指定 范围 内 的 属性 。 

如 果 没 有 期 望 输出 的 属性 ， 使 用 “-p 0”。 

不 推荐 使 用 ， 请 使 用 -classifications 代 蔡 

仅 用 于 标 称 型 类 别 ， 与 -p 选项 联 用 ， 输 出 的 是 (分 类 ) 分 布 而 非 预测 。 
已 弃 用 ， 请 使 用 -classifications 代替 

只 输出 累积 的 边缘 分 布 

只 输出 分 类 器 的 源码 表示 ， 为 它 提供 名 称 

只 输出 分 类 器 的 图 形 表示 

不 从 命令 行 ， 而 是 从 XML 数据 中 检索 选项 

要 保存 阔 值 数据 的 文件 。 格 式 用 扩展 名 确定 ， 如 : .arff 为 ARFF 格 
式 ，.csv 为 CSV 格式 

用 于 确定 阔 值 数据 的 类 别 标 签 ， 默 认为 第 一 个 标签 


默认 情况 下 ， 如 果 不 提供 测试 文件 ， 就 会 执行 交叉 验证 ， 这 时 应 首先 将 数据 进行 随机 


排列 。 如 果 要 多 次 重复 交叉 验证 ， 每 次 都 要 将 数据 以 不 同 的 方式 重新 随机 排列 ，-s 选项 用 
于 设置 随机 数 种 子 ， 其 默认 值 为 1。 如 果 数 据 集 很 大 ， 可 能 需要 使 用 -x 选项 来 减少 交叉 验 
证 的 折 数 ， 其 默认 值 为 10。 如 果 需 要 使 用 单独 训练 数据 ，-no-cv 选项 可 以 用 于 阻止 交叉 验 
证 ; -v 选项 阻止 输出 训练 数据 的 性 能 。 作 为 交叉 验证 的 一 种 替代 方法 ， 可 以 使 用 -t 选项 指 
定 将 数据 分 割 为 训练 集 和 测试 集 ， 再 使 用 -splitpercentage 选项 指定 用 作 新 训练 集 的 百 分 
比 ， 而 剩余 的 数据 将 作为 测试 集 。 当 使 用 -splitpercentage 选项 指定 训练 集 和 测试 集 分 割 比 


例 时 ， 可 以 使 用 -preserve-order 选项 阻止 数据 的 随机 化 ， 即 保持 原 有 的 数据 顺序 。 


在 探索 者 界面 中 ， 可 以 使 用 成 本 敏感 的 评估 。 在 命令 行 也 可 以 获得 同样 的 效果 ， 使 用 
了 选项 以 提供 包含 成 本 矩阵 的 文件 名 称 。 例 如 ， 下 面 是 一 个 天 气 数据 的 成 本 矩阵 : 

2 2 % 在 矩阵 中 的 行 数 和 列 数 

0 10 % 如 果实 际 分 类 为 yes 但 预测 为 no， 惩罚 是 10 


10 % 如 果实 际 分 类 为 no 但 预测 为 Yes， 惩罚 是 1 
其 中 ， 第 一 行 给 出 成 本 和 矩阵 的 行 和 列 的 数目 ， 也 就 是 说 ， 分 类 值 的 数目 。 然 后 是 惩罚 和 矩 
阵 。 以 “%” 开 始 的 文字 为 注释 ， 可 以 附加 到 任何 行 的 结尾 。 

也 可 以 保存 和 加 载 模 型 。 如 果 使 用 -d 选项 提供 输出 文件 的 名 称 ，Weka 保存 由 训练 数 
据 生成 的 分 类 器 。 为 了 使 用 相同 的 分 类 器 来 评估 一 批 新 的 测试 数据 ， 可 以 使 用 -1 选项 加 载 
保存 后 的 分 类 器 ， 而 不 用 重建 。 如 果 分 类 器 支持 增 量 更 新 ， 可 以 提供 训练 文件 和 输入 文 
件 ，Weka 会 加 载 分 类 器 并 使 用 给 定 的 训练 实例 对 它 进行 更 新 。 

如 果 只 想 评估 一 个 学 习 方 案 的 表现 ， 使 用 -o 选项 以 阻止 输出 的 模式 。 使 用 -i 选项 查看 
准确 率 、 查 全 率 、F- 度 量 、ROC 曲线 下 区 域 的 性 能 指标 。 使 用 -k 选项 来 计算 信息 理论 的 学 
习 方 案 产 生 的 概率 度量 。 

挖掘 人 员 往 往 希望 知道 学 习 方案 对 某 个 测试 实例 具体 预测 的 是 哪 一 个 类 别 值 。-p 选项 
打印 每 个 测试 实例 的 数量 ， 类 别 值 的 索引 和 实际 值 ， 预 测 类 别 值 的 索引 和 预测 值 ， 如 果 错 
误 分 类 了 这 个 类 别 ， 则 显示 “+” 号 ， 并 给 出 预测 类 别 值 的 概率 。 可 以 通过 使 用 -distribution 
标志 和 -p 选项 ， 输 出 对 某 个 实例 所 预测 的 每 个 可 能 类 别 标签 的 概率 。 在 这 种 情况 下 ， 将 
“*” 放 置 在 对 应 于 预测 分 类 值 的 分 布 的 概率 旁 。-p 选项 还 输出 每 个 实例 的 属性 值 ， 且 必 
须 紧 跟 所 规定 的 范围 (如 ，1-2)， 如 果 不 需 要 任何 属性 值 则 使 用 0。 也 可 以 输出 训练 数据 的 
累积 边缘 分 布 ， 它 显示 了 边缘 度量 的 分 布 。 最 后 ， 还 可 以 输出 分 类 器 的 源码 表示 ， 并 在 分 
类 器 支持 产生 图 形 的 条 件 下 ， 以 图 形 方式 表示 。 

使 用 -threshold-file 选项 ， 可 以 将 与 诸如 ROC 和 查 全 率 - 准 确 率 (Recall-Precision) 曲 线 等 
性 能 图 表 的 相关 数据 发 送 到 文件 。-threshold-label 选项 可 以 指定 用 于 产生 该 数据 的 视 为 正 
类 的 分 类 标签 。 下 一 节 将 讨论 如 何在 命令 行 上 使 用 具体 学 习 方 案 相 关 的 特定 选项 ， 这 些 选 
项 也 可 以 从 XML 文件 或 使 用 -xml 选项 的 字符 串 进行 设置 。 


5.3.2 ”特定 选项 


表 5.2 所 示 的 是 J48 决策 树 的 特定 选项 。 用 户 可 以 强制 使 用 未 剪 枝 树 算 法 ， 而 不 是 前 
枝 树 算法 。 也 可 以 阻止 子 树 提升 ， 从 而 提高 了 效率 。 可 以 设置 剪 枝 的 置信 度 阔 值 ， 以 及 在 
叶 节点 允许 的 最 少数 量 的 实例 这 两 个 参数 。 就 像 C4.5 的 标准 剪 枝 程序 ， 可 以 执行 减少 错误 
的 剪 枝 。-N 选项 确定 保留 集合 的 大 小 ， 这 是 将 数据 集 平分 为 相同 大 小 的 部 分 ， 最 后 那 部 分 
保留 ， 其 默认 值 为 3。 可 以 利用 拉 普 拉 斯 技术 平滑 概率 估计 ， 在 选择 剪 枝 集 时 设置 对 数据 
随机 排序 的 随机 数 种 子 ， 并 为 将 来 的 可 视 化 保存 实例 信息 。 最 后 ， 使 用 -B 选项 对 标 称 属性 
建立 二 元 分 叉 树 ， 而 不 是 多 元 分 支 分 又 树 。 


表 5.2 weka.classifiers.trees.J48 


选 项 功 能 
-U 使 用 未 剪 枝 树 
-0 不 折 营 树 
-C < 剪 枝 置信 度 > 设置 前 枝 的 置信 度 阔 值 ， 默 认为 0.25 
-M < 实例 的 最 小 数量 > 设置 每 个 叶 节点 实例 的 最 少数 量 ， 默 认为 2 
-有 使 用 减少 错误 剪 枝 
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一 一 Wi 
续 表 
选 项 功 能 
-N < 折 数 > 设置 减少 错误 剪 枝 的 折 数 ， 一 折 用 作 剪 枝 集 ， 默 认为 3 
-B 只 使 用 二 元 分 割 
-S 不 执行 子 树 提升 
a 不 要 清理 已 构建 后 的 树 
-A 拉 普 拉 斯 平滑 预测 概率 
过 不 使 用 MDL 校正 数值 属性 的 信息 增益 
-Q < 种 子 > 随机 数据 洗 牌 的 种 子 ， 默 认为 1 


5.4 过 滤器 和 分 类 器 选项 


从 前 面 章节 知道 ， 命 令 行 最 重要 和 难以 掌握 的 就 是 选项 ， 包 括 常 规 选项 和 特定 选项 。 
下 面 就 以 常用 的 过 滤器 和 分 类 器 为 例 ， 说 明 其 用 法 。 


5.4.1 过 滤器 选项 


Weka 过 滤器 算法 都 是 以 Java 类 的 形式 放置 在 weka.filters 包 中 ， 这 些 类 用 于 转换 数据 
集 ， 可 能 的 转换 操作 有 : 删除 或 添加 属性 ， 对 数据 集 进行 二 次 取样 ， 删 除 样 本 等 。 
weka.filters 包 对 数据 预 处 理 提供 非常 有 用 的 支持 ， 而 数据 预 处 理 是 机 器 学 习 的 重要 步骤 。 

全 部 过 滤器 都 提供 -i 选项 以 指定 输入 数据 集 ， 提 供 -o 选项 指定 输出 数据 集 。 如 果 没 有 
给 定 这 些 参数 ，Weka 将 从 标准 输入 读 入 ， 写 到 标准 输出 。 每 个 过 滤器 都 可 以 指定 其 他 参 
数 ， 如 果 不 知 道 有 什么 具体 参数 ， 可 以 像 其 他 Java 类 一 样 通过 -h 选项 得 到 帮助 。 
weka.filters 包 组 织 为 有 监督 和 无 监督 的 过 滤器 ， 二 者 又 再 划分 为 实例 过 滤器 和 属性 过 滤 
器 。 下 面 说 明 这 四 种 过 滤器 的 选项 。 

1. 有 监督 过 滤器 

有 监督 过 滤器 类 都 位 于 weka.filters.supervised 包 下 ， 有 监督 过 滤器 充分 利用 已 知 实例 
的 类 别 信息 进行 学 习 。 数 据 集 的 类 别 属性 必须 通过 -c 选项 指定 ，Weka 默认 使 用 -c last 指定 
最 后 一 个 属性 为 类 别 属性 。 

1) weka.filters.supervised.attribute 

Discretize 过 滤器 根据 类 别 信息 ， 将 数值 属性 离散 化 为 标 称 属性 。 主 要 用 于 只 能 处 理 标 
称 型 数据 的 学 习 方案 ， 如 weka.classifiers rules.Prism。 离 散 化 的 另 一 个 用 途 就 是 能 减少 学 习 
时 间 。 

如 下 命令 离散 化 iris.arff 数据 集 。 


java weka.filters.supervised.attribute.Discretize -i data/iris.arff -o iris- 
nom.arff -c last 


如 下 命令 离散 化 cpuwith vendorarff 数据 集 ， 将 第 一 行 (CPU 厂商 ) 作 为 类 别 属性 。 


java weka.filters.supervised.attribute.Discretize -i data/cpu.with.vendor.arff 


-oO cpu-classvendor-nom.arff -c first 


NominalToBinary 过 滤器 将 全 部 标 称 属性 编码 为 二 元 (二 值 ) 属 性 ， 它 能 将 数据 集 转 换 为 
纯 数值 的 表示 ， 例 如 ， 通 过 多 维 缩放 的 可 视 化 。 
如 下 命令 将 contact-lenses.arff 数据 集 的 全 部 标 称 属性 转换 为 二 元 属性 。 


java weka.filters.supervised.attribute.NominalToBinary -i data/contact-— 
lenses.arff -o contact-lenses-bin.arff -c last 


记 住 Weka 中 的 大 多 数 分 类 器 都 在 内 部 使 用 了 转换 的 过 滤器 ， 例 如 ，Logistic 和 
SMO， 因 此 用 户 通常 不 需要 明确 指定 这 些 过 滤器 。 但 是 ， 如 果 需 要 大 量 运行 实验 ， 预 先 实 
施 过 滤器 也 许 能 够 提高 运行 效率 。 

2) weka.filters.supervised.instance 

Resample 过 滤器 对 给 定数 据 集 进行 二 次 分 层 抽 样 。 这 意味 着 抽样 样本 近似 地 保留 了 整 
体 的 类 别 分 布 ， 可 以 通过 -B 选项 指定 类 别 的 均匀 分 布 偏 倚 。 

如 下 命令 对 soybean.arff 数据 集 进行 二 次 分 层 抽样 ， 使 用 -c 选项 指定 最 后 一 个 属性 为 
类 别 属性 ， 使 用 -Z 选项 指定 输出 数据 集 的 大 小 为 5( 默 认为 100)， 该 数值 为 输入 数据 集 的 百 
分 比 。 


java weka.filters.supervised.instance.Resample -i data/soybean.arff -o 

soybean-5%.arff -c last -2 5 

如 下 命令 对 soybean.arff 数据 集 进 行 二 次 分 层 抽样 ， 使 用 -c 选项 指定 最 后 一 个 属性 为 
类 别 属性 ， 使 用 -Z 选项 指定 输出 数据 集 的 大 小 为 5S， 使 用 -B 选项 指定 类 别 的 均匀 分 布 偏 倚 
为 1。 

java weka.filters.supervised.instance.Resample -i data/soybean.arff -o 

soybean-uniform-5%.arff -c last -2 5 -B 1 

StratifiedRemoveFolds 过 滤器 对 给 定数 据 集 创建 分 层 交 叉 验 证 折 。 这 意味 着 ， 默 认 情 
况 下 每 个 折 都 大 致 保持 其 类 别 分 布 。 如 下 示例 将 soybean.arff 数据 集 分 割 为 分 层 的 训练 集 
和 测试 集 ， 后 者 占 25%(1/4) 的 数据 。 这 里 的 -N 选项 指定 数据 集 分 割 的 折 数 (默认 为 10)，-F 
选项 指定 选择 的 折 ( 默 认为 1 )，-V 选项 指定 反 转 选择 。 


java weka.filters.supervised.instance.stratifiedRemoveFolds -i 
data/soybean.arff -o soybean-train.arff -c last -N 4 -F 1 -V 


java weka.filters.supervised.instance.stratifiedRemoveFolds -i 
data/soybean.arff -oO soybean-test.arff -c last -N 4 -FE1 


2. 无 监督 过 滤器 

无 监督 过 滤器 类 都 位 于 weka filters.unsupervised 包 下 ， 无 监督 过 滤器 不 能 指定 类 别 属 
性 。 如 ，Resample 过 滤器 的 无 分 层 版 本 。 

1) weka.filters.unsupervised.attribute 

StringToWordVector 过 滤器 将 字符 串 属 性 转换 为 单词 向 量 ， 即 为 字符 串 内 的 每 个 单词 
创建 一 个 属性 ， 根 据 单词 是 否 存在 或 单词 计数 (-C 选项 ) 进 行 编码 。-W 选项 可 以 用 于 对 单 
词 数 量 设置 一 个 近似 的 限制 。 当 分 配 一 个 类 别 时 ， 限 制 适 用 于 每 个 单独 的 类 别 。 该 过 滤器 
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在 文本 挖掘 领域 非常 有 用 。 

如 下 命令 使 用 StringToWordVector 过 滤器 将 ReutersCorm-train arff 数据 集 的 字符 串 属 
性 转换 为 单词 向 量 ， 使 用 -C 选项 对 单词 的 出 现 次 数 进行 计数 。 

java weka.filters.unsupervised.attribute.StringToWordVector -C -i 

data/ReutersCorn-train.arff -o ReutersCorn-train-preprocessed.arff 

Obfuscate 过 滤器 对 数据 集 名 称 、 所 有 的 属性 名 称 和 标 称 属性 值 进行 重 命名 。 这 是 为 了 
交换 敏感 数据 集 时 ， 不 会 轻易 暴露 限制 级 的 信息 。 

如 下 命令 使 用 Obfuscate 过 滤器 将 iris.arff 数据 集 加 密 。 读 者 可 使 用 任意 文本 编辑 器 打 
开 iris-secret.arff 数据 集 ， 验 证 是 否 已 经 无 法 看 懂 数 据 集 的 内 容 ， 但 丝毫 不 影响 数据 挖掘 。 

java weka.filters.unsupervised.attribute.Obfuscate -i data/iris.arff -o iris- 

Secret .arff 

Remove 过 滤器 从 一 个 数据 集中 明确 删除 指定 属性 ， 例 如 ， 如 下 命令 删除 iris.arff 数据 
集中 的 属性 。 其 中 ， 第 一 条 命令 删除 数据 集中 的 第 1、2 个 属性 ， 第 二 条 命令 删除 第 3 至 
最 后 的 属性 。 

java weka.filters.unsupervised.attribute.Remove -R 1-2 -i data/iris.arff -o 

iris-simplified.arff 

java weka.filters.unsupervised.attribute.Remove -V -R 3-last -i data/iris.arff 

-oO iris-simplified.arff 


2) weka .filters.unsupervised.instance 

Resample 过 滤器 对 给 定数 据 集 创建 一 个 不 分 层 的 二 次 抽样 ， 即 不 考虑 类 别 信息 的 随机 
抽样 。 否 则 就 等 效 于 有 监督 二 次 抽样 。 

如 下 命令 对 soybean.arff 数据 集 进行 二 次 随机 抽样 ， 这 里 不 使 用 -c 选项 指定 类 别 属 
性 ， 使 用 -Z 选项 指定 输出 数据 集 的 大 小 为 5。 

java weka.filters.unsupervised.instance.Resample -i data/soybean.arff -o 

soybean-5%.arff -2 5 

RemoveFolds 过 滤器 对 给 定数 据 集 创建 交叉 验证 折 。 由 于 是 无 监督 的 ， 将 不 再 保留 类 
别 分 布 。 下 面 的 示例 将 soybean.arff 数据 集 拆 分 为 训练 集 和 测试 集 ， 后 者 占 25%(1/4) 的 数 
据 。 这 里 的 -N 选项 指定 数据 集 分 割 的 折 数 (默认 为 10)，-F 选项 指定 选择 的 折 ( 默 认为 1)， 
-V 选项 指定 反 转 选择 。 


java weka.filters.unsupervised.instance.RemoveFolds -i data/soybean.arff -o 
soybean-train.arff -c last -N4-F1-V 


java weka.filters.unsupervised.instance.RemoveFolds -i data/soybean.arff -o 

soybean-test .arff -c last -N 4 -F 1 

RemoveWithValues 过 滤器 根据 属性 值 过 滤 实 例 。 

如 下 命令 对 soybean arff 数据 集 的 实例 进行 过 滤 。-V 选项 反 转 选择 ，-C 选项 选择 要 使 
用 的 属性 ， 这 里 是 最 后 一 个 属性 ，-L 选项 指定 在 标 称 属性 进行 选择 的 标签 索引 范围 。 这 
里 的 最 后 一 个 属性 的 标签 索引 为 19 的 标签 为 herbicide-injury， 由 于 使 用 了 -V 选项 反选 ， 
因此 选择 出 来 的 结果 为 最 后 一 个 属性 的 标签 不 是 herbicide-injury 的 全 部 实例 。 


java weka.filters.unsupervised.instance.RemoveWithValues -i data/soybean.arff 
-0 soybean-without herbicide injury.arff -V -C last -L 19 


5.4.2 分 类 器 选项 


分 类 器 是 Weka 的 核心 内 容 。 分 类 器 有 很 多 常见 的 选项 ， 其 中 大 部 分 涉及 评估 。 以 下 
将 专注 于 最 为 重要 的 选项 ， 像 往常 一 样 ， 包 括 分 类 器 的 特定 选项 在 内 的 所 有 其 他 选项 ， 都 
可 以 通过 -h 选项 获取 帮助 。 

-选项 指定 ARFF 格式 的 训练 文件 。 

-T 选项 指定 ARFF 格式 的 测试 文件 。 如 果 不 指定 本 选项 ， 将 执行 交叉 验证 (默认 为 十 
折 交 叉 验证 )。 

-X 选项 决定 了 交叉 验证 的 折 数 。 只 有 缺少 -T 选项 才 会 执行 交叉 验证 。 

-c 选项 指定 类 别 属性 ， 属 性 索引 以 1 为 基 。 

-d 选项 指定 保存 训练 后 的 模型 文件 。 每 个 分 类 器 的 模型 具有 不 同 的 二 进 制 格式 ， 因 此 
只 能 用 完全 相同 的 分 类 器 在 兼容 的 数据 集 上 读 回 。 只 保存 在 训练 集 上 的 模型 ， 不 保存 执行 
交叉 验证 产生 的 多 个 模型 。 

-L 选项 载 入 先前 保存 的 模型 ， 通 常用 于 测试 新 的 、 以 前 未 见 过 的 数据 。 在 这 种 情况 
下 ， 需 要 指定 一 个 兼容 的 测试 文件 ， 即 以 相同 的 顺序 排列 的 相同 属性 。 

-p # 选 项 在 指定 测试 文件 后 才能 使 用 ， 该 参数 显示 所 有 的 测试 实例 的 预测 ， 以 及 某 个 
属性 (0 表示 没有 )。 

-i 选项 显示 更 为 详细 的 性 能 描述 ， 包 括 查 准 率 、 查 全 率 、 真 阳性 率 和 假 阳性 率 。 所 有 
这 些 值 也 可 以 从 混淆 矩阵 中 计算 而 得 。 

-0 选项 关闭 人 类 可 读 的 模型 描述 信息 的 输出 。 在 使 用 支持 向 量 机 或 NaiveBayes 的 情况 
下 ， 使 用 该 选项 ， 用 户 可 以 对 大 量 的 信息 进行 分 析 和 可 视 化 。 

例如 ， 如 下 命令 使 用 J48 决策 树 对 weather.nominal.arff 数据 集 进行 分 类 ， 使 用 -t 选项 
指定 训练 文件 ， 使 用 -i 选项 显示 更 为 详细 的 性 能 描述 。 


java weka.classifiers.trees.J48 -t data/weather.nominal.arff -i 


执行 命令 后 的 分 类 结果 如 图 5.9 所 示 。 


图 5.9 分 类 结果 


如 果 使 用 诸如 StackingC 或 ClassificationViaRegression 的 元 分 类 器 ， 也 就 是 分 类 器 中 
的 选项 包含 另 一 个 分 类 器 的 格式 。 必 须 小 心 不 要 混用 参数 ， 例 如 ， 如 下 命令 : 
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java weka.classifiers.meta.ClassificationViaRegression -W 
weka.classifiers.functions.LinearRegression -S 1 -t data/iris.arff -x 2 


其 中 ，-W 选项 指定 基 分 类 器 的 全 名 。 但 这 里 的 选项 -S 1 会 抛 出 一 个 例外 ，-S 选项 设置 使 用 
的 属性 选择 方法 ， 只 对 LinearRegression 分 类 器 有 意义 ， 但 不 能 用 于 ClassificationViaRegression 
元 分 类 器 。 遗 憾 的 是 ，Weka 并 不 知道 在 这 种 情况 下 哪个 选项 该 用 在 哪个 分 类 器 上 。 一 种 
解决 方案 是 ， 明 确 用 双 引 号 指定 分 类 器 格式 的 全 部 参数 ， 这 样 ， 原 命令 可 更 改 为 

java weka.classifiers.meta.ClassificationViaRegression -W 

"weka.classifiers.functions.LinearRegression -S 1" -t data/iris.arff -x 2 

但 是 ， 这 种 方法 取决 于 顶级 的 分 类 器 如 何 实现 选项 处 理 ， 并 不 总 是 有 效 。 对 于 
Stacking 元 分 类 器 ， 这 种 方法 工作 得 非常 好 ， 而 对 于 ClassificationViaRegression 却 不 能 工 
作 。 得 到 的 错误 信息 是 无 法 找到 类 “weka.classifiers.functions.LinearRegression -S 1”。 幸 
运 的 是 ， 还 有 另 一 种 方法 可 用 ， 所 有 在 “--” 之 后 的 参数 由 第 一 个 子 分 类 器 处 理 ， 另 一 个 
在 “--” 之 后 的 参数 由 第 二 个 子 分 类 器 处 理 ， 以 此 类 推 。 

这 样 ， 原 来 的 命令 就 更 改 为 如 下 的 正确 形式 : 


java weka.classifiers.meta.ClassificationViaRegression -W 
weka.classifiers.functions.LinearRegression -t data/iris.arff -x 2 -- -S 1 


在 某 些 情况 下 ， 需 要 将 这 两 种 方法 混合 起 来 。 例 如 : 

java weka.classifiers.meta.Stacking -B "weka.classifiers.lazy.IBk -K 10" -M 

"weka.classifiers.meta.ClassificationViaRegression -W 

weka.classifiers.functions.LinearRegression -- -S 1" -t data/iris.arff -x 2 

请 注意 ， 虽 然 ClassificationViaRegression 元 分 类 器 可 以 使 用 “--” 参 数 , 但 Stacking 
元 分 类 器 却 不 能 使 用 该 参数 。 遗 憾 的 是 ， 在 Weka 中 子 分 类 器 的 格式 选项 处 理 尚未 完全 统 
一 。 唯 一 的 好 消息 是 ， 这 里 提 到 的 两 种 方法 ， 总 有 一 种 能 够 生效 。 


5.4.3 手把手 教 你 
1. 数据 集 实用 工具 


Weka 数据 集 一 般 使 用 ARFF 格式 ， 通 过 调用 weka.core.Instances 类 的 main0 函 数 ， 可 
以 验证 数据 集 文 件 ， 并 得 到 数据 集 的 基本 统计 信息 。 
具体 方法 是 ， 在 命令 行 窗口 输入 如 下 命令 。 


java weka.core.Instances data/weather.numeric.arff 


简单 命令 行 会 输出 如 图 5.10 所 示 的 结果 。 输 出 分 为 两 部 分 ， 第 一 部 分 是 数据 集 的 基本 
信息 : 关系 名 称 (Relation Name)、 实 例 数量 (Num Instances) 和 属性 数量 (Num Attributes)。 第 
二 部 分 是 数据 集中 属性 的 基本 统计 信息 ， 包 括 : 属性 名 称 (Name)、 类 型 (Type)、 标 称 型 占 
比 (Nom)、 整 型 占 比 (Int)、 实 型 占 比 (Real))、 缺 失 值 数量 及 占 比 (Missing)、 属 性 值 取 唯一 值 
的 数量 及 百分比 (Unique) 和 属性 取 不 同 值 的 数量 (Dist)。 

weka.core 提供 一 些 有 用 的 例 程 ， 如 converters.C45Loader 和 converters.CSVLoader， 可 
以 用 来 导入 C45 格式 和 CSV 格式 的 数据 集 ， 另 外 ， 使 用 重 定向 容易 将 其 他 格式 的 数据 转 
换 为 ARFF 格式 的 数据 。 
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图 5.10 ”验证 并 输出 数据 集 统计 信息 
例如 ， 如 下 命令 可 将 CSV 格式 或 C45 格式 的 数据 集 转换 为 ARFF 格式 的 数据 集 。 


java weka.core.converters.CSVLoader data.csv > data.arff 
java weka.core.converters.C45Loader c45 filestem > data.arff 


2. 使 用 J48 决策 树 分 类 器 
首先 ， 打 开 简 单 命令 行 窗口 ， 在 单行 命令 行文 本 框 中 输入 如 下 命令 : 
java weka.classifiers.trees.J48 -h 


查看 Weka 给 出 的 帮助 信息 ， 如 图 5.11 所 示 。 


图 5.11 J48 帮助 


然后 ， 输 入 如 下 命令 : 
java weka.classifiers.trees.J48 -t ./data/iris.arff 


查看 J48 分 类 器 对 高 尾 花 数 据 集 的 分 类 准确 度 ， 如 图 5.12 所 示 。 注 意 到 这 里 的 数据 文 
件 采用 的 是 相对 路 径 ， 注 意 相 对 路 径 与 绝对 路 径 的 区 别 ， 并 使 用 绝对 路 径 再 试 一 次 。 


图 5.12 ” 营 尾 花 数 据 集 的 分 类 准确 度 
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现在 ， 输 入 如 下 命令 : 


java weka.classifiers.trees.J48 -split-percentage 66 -t ./data/iris.arff 


这 里 使 用 -split-percentage 选项 设置 训练 集 /测试 集 分 割 的 百分比 ， 设 置 三 分 之 二 的 数据 
用 作 训 练 集 ， 剩 下 的 三 分 之 一 的 数据 用 作 测 试 集 ， 运 行 结果 如 图 5.13 所 示 。 


ean absolure error 0.0396 
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图 5.13 训练 集 / 测 试 集 分 割 运 行 结 果 
如 果 想 修改 剪 枝 置信 度 参 数 和 实例 最 小 数量 参数 ， 可 以 使 用 -C 和 -M 选项 ， 例 如 : 


java weka.classifiers.trees.J48 -C 0.2 -M 3 -split-percentage 66 
-t ./data/iris.arff 


运行 结果 如 图 5.14 所 示 。 
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图 5.14 设置 J48 参数 的 运行 结果 
3. 保存 训练 好 的 分 类 器 
本 示例 演示 如 何 保存 分 类 模型 ， 并 使 用 保存 的 模型 对 新 实例 进行 分 类 。 
本 示例 还 是 使 用 天 气 数 据 集 ， 但 分 类 器 改 用 朴素 贝 叶 斯 分 类 器 。 


首先 在 Weka 安装 目录 下 新 建 一 个 output 子 目录 备用 ， 然 后 打开 简单 命令 行 窗口 ， 在 
窗口 中 输入 如 下 命令 : 


java weka.classifiers.bayes.NaiveBayes -d output/nv.model -t 
data/weather.nominal .arff 


e@ 


该 命令 使 用 “-d” 选 项 指定 将 训练 后 的 模型 保存 为 nv.model 文件 。 命 令 执行 完毕 后 ， 
可 以 使 用 资源 管理 器 打开 output 子 目 录 ， 查 看 目录 下 新 建 的 模型 文件 。 
在 output 子 目 录 下 ， 新 建 一 个 weather nominaltestarff 文件 作为 测试 集 ， 编 辑 内 容 如 下 : 


@relation weather.symbolic 
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@attribute outlook {sunny, overcast, rainy} 
@attribute temperature {hot, mild, cool} 
Q@attribute humidity {high, normal} 
Q@attribute windy {TRUE, FALSE} 

Q@attribute play {yes, no} 


@data 
overcast, hot, normal, FALSE, yes 


保存 测试 集 文件 。 然 后 ， 在 简单 命令 行 窗口 中 输入 如 下 命令 。 其 中 ，-1 选项 载 入 先前 
保存 的 模型 ，-T 选项 指定 测试 文件 ，-p # 选 项 显示 所 有 的 测试 实例 的 预测 ， 以 及 某 个 属性 
(0 表示 没有 )。 

java weka.classifiers.bayes.NaiveBayes -1 output/nv.model -p 0 -T 

output/weather.nominal .test .arff 

测试 结果 如 图 5.15 所 示 。 可 见 ， 预 测 结果 为 yes， 实 际 结果 也 为 yes， 预 测 正确 。 
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图 5.15 测试 结果 


常常 使 用 -classifications 选项 来 指定 产生 分 类 输出 的 格式 ， 一 般 使 用 weka.classifiers. 
evaluation.output.prediction.PlainText 指定 输出 为 文本 格式 ， 如 果 要 使 用 HTML 格式 ， 请 将 
PlainText 换 成 HTML。 

输入 如 下 命令 并 回 车 。 


java weka.classifiers.bayes.NaiveBayes -1 output/nv.model -classifications weka. 
classifiers.evaluation.output .prediction.HIML -T output/weather.nominal .test.arff 


测试 结果 如 图 5.16 所 示 。 使 用 HTML 格式 输出 的 好 处 是 容易 在 浏览 器 中 进行 观察 ， 
可 以 显示 成 表格 等 复杂 的 形式 。 

4. 分 析 分 类 结果 

本 示例 展示 如 何 将 数据 集 分 割 为 训练 集 和 测试 集 ， 然 后 用 训练 集 对 分 类 器 进行 训练 ， 
并 将 训练 好 的 模型 用 于 评估 测试 集 。 

首先 ， 按 照 前 文 “ 有 监督 过 滤器 ”所 述 的 方法 ， 使 用 StratifiedRemoveFolds 过 滤器 将 
soybean .arff 数据 集 分 割 为 分 层 的 训练 集 和 测试 集 。 
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5.16 ”HTML 格式 的 测试 结果 
在 简单 命令 行 输入 如 下 命令 : 


java weka.filters.supervised.instance.StratifiedRemoveFolds -i 
data/soybean.arff -o output/soybean-train.arff -c last -N4 -F 1 -V 


java weka.filters.supervised.instance.StratifiedRemoveFolds -i 
data/soybean.arff -o output/soybean-test.arff -c last -N4 -FE1 


命令 执行 完毕 后 ， 在 output 目录 下 应 该 产生 soybean-train.arff 和 soybean-test.arff 两 个 
文件 ， 前 者 为 训练 集 ， 后 者 为 测试 集 。 

下 面 ， 使 用 朴素 贝 叶 斯 分 类 器 对 训练 集 进 行 训练 ， 将 训练 好 的 模型 用 来 对 测试 集 进行 
评估 。 命 令 如 下 ， 这 里 的 -K 选项 对 数值 属性 指定 使 用 核 密度 评估 器 ， 而 不 是 正 态 分 布 。 


java weka.classifiers.bayes.NaiveBayes -K -t output/soybean-train.arff -T 

output/soybean-test.arff -p 0 

命令 运行 完毕 后 ，Weka 简单 命令 行 输出 如 下 结果 。 第 一 列 为 实例 序号 (inst)， 第 二 列 
为 实际 值 (actuaD)， 第 三 列 为 预测 值 (predicted)， 第 四 列 为 错误 (error， 如 果 预 测 错误 则 在 该 
行 显示 “+” 号 )， 第 五 列 为 预测 (prediction) 的 置信 度 ， 预 测 类 别 的 概率 估计 。 
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inst# 
1 


Dowaou 必 wm 


FF 
Do 


13 


actual 


1:diaporth 
1:diaporth 
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3: 
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3 
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4 
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:phytopht 
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phytopht 


predicted error prediction 
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3 
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:rhizocto 
:rhizocto 
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14 4:phytopht 4:phytopht 


33 8:brown-sp 13:phyllos 


PpPPPPPPPPP 


5 14:alterna + 0.64 

Pe 13:phyllos + 0.894 
a 14:alterna + 0.579 
yn 8:brown-sp + 0.494 
117 12:anthrac 3:rhizocto + 0.568 
132 15:frog-ey 14:alterna + 0.993 


135 15:frog-ey 16:diaport + 0.896 
136 15:frog-ey 8:brown-sp + 0.734 


138 15:frog-ey 14:alterna + 0.663 
140 15:frog-ey 14:alterna + 0.868 


170 18:2-4-d-i l:diaporth + 0.342 


输出 的 结果 分 为 前 后 两 个 部 分 ， 前 一 部 分 的 预测 置信 度 很 高 ， 说 明 模型 对 分 类 预测 非 
常 自 信 ， 后 一 部 分 都 是 出 错 的 预测 ， 总 体 来 说 预测 置信 和 度 不 高 ， 也 有 一 个 实例 (第 132 条 ) 
例外 ， 其 置信 度 很 高 (0.993)， 但 是 预测 错误 。 大 多 数 出 错 的 类 别 是 brown-sp 和 frog-ey， 预 
测 为 其 他 类 别 。 在 实际 应 用 中 ， 可 以 设 定 一 个 阔 值 ， 如 果 预 测 置信 度 低 于 该 疹 值 ， 就 显示 
一 些 警示 信息 ， 提 醒 挖掘 者 本 算法 没有 把 握 做 出 决策 。 

如 果 通 过 -p 选项 选择 一 个 属性 范围 ， 如 -p firstlast， 所 选中 的 属性 会 在 括号 中 输出 为 
以 逗号 分 隔 的 值 。 然 而 ， 第 一 列 的 实例 序号 提供 更 安全 的 确定 测试 实例 的 方法 。 


5.5 包 管 理 器 


到 目前 为 止 ， 使 用 “ 包 ” 这 个 词 大 都 是 指 Java 组 织 类 的 概念 。 此 外 ，Weka 中 还 有 另 
一 个 包 的 概念 ， 就 是 将 不 在 主 wekajar 文件 中 提供 ， 而 与 单独 提供 的 附加 功能 捆绑 在 一 起 
形成 包 。 一 个 包 由 各 种 jar 文件 、 文 档 、 元 数据 ， 以 及 可 能 的 源 代码 组 成 。Weka 中 有 许多 
包 可 用 ， 这 些 包 以 某 些 形式 增添 了 学 习 方案 以 及 扩展 了 核心 系统 的 功能 。 许 多 包 由 Weka 
团队 提供 ， 其 他 包 来 自 第 三 方 。 

Weka 自 带 包 管理 的 功能 以 及 在 运行 时 动态 加 载 包 的 机 制 ， 命 令 行 版 本 主要 为 没有 命 
令 行 的 Mac 系统 保留 。 包 管理 器 分 为 命令 行 版 本 和 GUI 版 本 ，GUI 版 本 已 经 在 第 1 章 讲 
述 过 ， 下 面 讲述 命令 行 版 本 。 

值得 注意 的 是 ，Windows 下 的 SimpleCLI 并 不 太 支 持 包 管理 器 ?， 因 此 最 好 使 用 包 管 


加 参见 http://forums.pentaho.com/archive/index.php/t-90690.html 
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理 器 的 GUI 版 本 。 对 于 喜欢 命令 行 的 开发 者 ， 只 能 使 用 还 能 支持 包 管理 器 的 Windows 命 
令 行 窗 口 ， 因 此 如 下 的 截图 大 都 为 Windows 命令 行 。 
5.5.1 命令 行 包 管理 器 
假设 wekajar 文件 已 经 在 classpath 中 ， 输 入 如 下 命令 就 可 以 访问 包 管 理 器 。 
Java weka.core.WekaPackageManager 
由 于 没有 提供 任何 选项 ，Weka 显示 如 图 5.17 所 示 的 用 法 信息 。 
© simplecu [= .3 mE) 


图 5.17 包 管 理 器 用 法 信息 
包 的 信息 (元 数据 ) 存 储 在 托管 Sourceforge 的 Web 服务 器 上 。 对 于 新 安装 的 Weka， 第 
-次 运行 包 管 理 器 时 ， 会 有 一 个 短暂 的 延迟 ， 那 是 因为 系统 从 服务 器 下 载 并 存储 元 数据 到 

本 地 缓存 中 ， 缓 存 机 制 加 快 浏览 包 信息 的 过 程 。 用 户 应 该 不 时 更 新 本 地 缓存 的 包 元 数据 ， 
以 便 从 服务 器 上 获取 包 的 最 新 信息 ， 这 可 以 通过 提供 -refresh-cache 选项 刷新 缓存 来 实现 。 

-list-packages <all | installed | available> 选 项 打印 各 种 包 的 版 本 号 和 简短 的 描述 信息 。 该 
选项 必须 后 接 下 列 三 个 关键 字 之 一 。 

(1) all。 打 印 系统 所 知 的 全 部 软件 包 的 信息 。 

(2) installed。 打 印 在 本 地 安装 的 全 部 软件 包 的 信息 。 

(3) available。 打 印 没有 安装 的 全 部 软件 包 的 信息 。 

如 下 命令 列 出 本 地 当前 安装 的 全 部 包 : 

java weka.core.WekaPackageManager -list-packages installed 

运行 后 的 结果 如 图 5.18 所 示 。 
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图 5.18 当前 安装 的 包 


-package-info <repository | installed | archive> packageName 命令 给 定 包 名 称 列 出 其 信 
息 。 该 命令 后 跟 三 个 关键 字 之 一 ， 然 后 跟 包 名 称 。 

(1) repository。 从 资源 库 中 打印 给 定名 称 的 包 信 息 。 

(2) installed。 打 印 指定 名 称 的 包 的 安装 版 本 信息 。 


(3) archive。 打 印 存储 在 zip 归档 文件 中 的 包 信 息 。 在 这 种 情况 下 ，archive 关键 字 后 面 
必须 紧 跟 包 zip 归档 文件 的 带路 径 全 名 ， 而 不 能 仅仅 是 包 的 名 称 。 
如 下 命令 从 服务 器 列 出 wavelet( 小 波 ) 包 的 信息 。 


java weka.core.WekaPackageManager -package-info repository wavelet 


得 到 的 信息 如 图 5.19 所 示 。 


图 5.19 wavelet 包 的 信息 


-install-package <packageName | packageZip | URL> [version] 选 项 允许 某 个 包 从 如 下 三 个 
位 置 之 一 进行 安装 。 

(1) packageName。 指 定 要 安装 的 包 名称 ， 使 用 存储 在 服务 器 上 描述 包 的 元 数据 来 安装 
包 。 如 果 没 有 给 定 版 本 号 ， 则 安装 包 的 最 新 可 用 版 本 。 

(2) packageZip。 提 供 一 个 带 全 路 径 的 zip 文件 ， 作 为 Weka 包 的 归档 文件 ， 尝 试 解压 
并 安装 。 

(3) URL。 提 供 一 个 以 http:/ 开 头 的 URL， 以 访问 网 络 上 的 zip 文件 ， 作 为 Weka 包 的 
归档 文件 下 载 并 尝试 安装 。 

-uninstall-package <packageName> 选 项 卸载 给 定名 称 的 包 。 当 然 ， 给 定名 称 的 包 必 须 
已 经 安装 ， 和 否则 命令 没有 任何 影响 。 
5.5.2 ”运行 安装 的 算法 

前 文 已 经 讲述 了 如 何 运 行 Weka 的 主要 分 发 包 ( 即 包含 在 weka.jar 文件 ) 中 学 习 算法 。 但 
使 用 包 管 理 器 安装 的 算法 该 如 何 运 行 呢 ? 我 们 不 希望 每 次 运行 一 个 特定 的 算法 时 ， 都 要 将 
若干 jar 文件 添加 到 CLASSPATH 中 。 幸 运 的 是 ， 也 不 需要 这 样 麻烦 。Weka 提供 一 种 在 运 
行 时 动态 加 载 已 安装 包 的 机 制 ， 可 以 使 用 Run 命令 运行 给 定名 称 的 算法 ， 命 令 如 下 : 

java weka.Run 


如 果 未 提供 任何 参数 ，Run 命令 会 输出 如 图 5.20 所 示 的 用 法 信息 。 
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图 5.20 Run 用 法 信息 
Run 命令 支持 子 串 匹配 ， 因 此 可 以 按照 如 下 命令 运行 某 个 分 类 器 算法 ， 这 里 使 用 
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J48 。 
java weka.Run J48 
如 果 所 提供 的 方案 名 称 能 够 匹配 多 个 算法 ，Weka 会 显示 匹配 列表 。 例 如 : 
java weka.Run NaiveBayes 


会 显示 如 图 5.21 所 示 的 匹配 列表 ， 让 用 户 选 择 到 底 想 使 用 哪 一 个 算法 ， 或 者 直接 按 
Enter 键 退出 。 


图 5.21 匹配 列表 


用 户 可 以 通过 提供 -no-scan 选项 ， 关 闭 扫描 包 和 子 串 匹 配 。 这 在 批 处 理 脚本 中 使 用 
Run 命令 时 非常 有 用 。 在 这 种 情况 下 ， 需 要 指定 所 使 用 算法 的 完全 限定 名 称 。 例 如 ; 

java weka.Run -no-scan weka.classifiers.bayes.NaiveBayes 

为 了 减少 启动 时 间 ， 也 可 以 通过 指定 -no-load 选项 ， 关 闭 动态 加 载 已 安装 包 。 在 这 种 
情况 下 ， 需 要 在 classpath 中 明确 包含 打算 使 用 的 算法 包 。 例 如 : 

java -classpath C:/Weka-3- 


7/weka .jar; $USERPROFILES/wekafiles/packages/optics dbscan/optics dbscan.jar 
weka.Run -no-load -no-scan weka.clusterers.DBScan 
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5.1 请 简要 说 明 简单 命令 行 界面 与 探索 者 、 知 识 流 界 面 的 联系 和 区 别 。 

5.2 请 问 在 什么 条 件 下 ，Weka 简单 命令 行 会 自动 完成 命令 ? 

5.3 打开 Weka API 文档 ， 查 找 并 阅读 classifyInstance() 方 法 和 distributionForInstance() 
方法 的 说 明 ， 这 两 个 方法 有 何 用 途 ? 

5.4 核心 包 中 有 哪 几 个 重要 的 类 ? 请 尝试 与 关系 数据 库 的 概念 进行 类 比 。 

5.5 对 contact-lenses.arff 数据 集 实 施 NominalToBinary 过 滤器 ， 观 察 结果 ， 说 明 该 过 
滤器 是 如 何 进行 转换 的 。 
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本 章 介 绍 Weka 的 贝 叶 斯 网 络 、 神 经 网 络 、 文 本 分 类 和 时 间 序 列 分 析 
及 预测 。 其 中 ， 前 两 个 学 习 方案 有 单独 的 图 形 用 户 界面 ， 第 三 个 学 习 方案 
涉及 包括 中 文 分 词 和 使 用 StringToWordVector 过 滤 的 预 处 理 ， 最 后 一 个 学 
习 方案 需要 包 管 理 器 定制 安装 并 使 用 附加 的 标签 页 。 这 四 方面 的 内 容 都 有 
一 定 的 难度 和 内 容 上 的 独立 性 ， 因 此 合 为 一 章 。 
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6.1 贝 叶 斯 网 络 


贝 叶 斯 网 络 是 一 种 概率 网 络 ， 是 基于 概率 推理 的 图 形 化 网 络 ， 而 贝 叶 斯 公式 则 是 这 个 
概率 网 络 的 基础 。 贝 叶 斯 网 络 又 称 为 信 度 网 络 (Belief Networks)， 是 贝 叶 斯 方法 的 扩展 ， 是 
目前 不 确定 知识 表达 和 推理 领域 最 有 效 的 理论 模型 之 一 。 自 1988 年 由 UCLA 的 Judea 
Pearl? 教 授 提出 后 ， 已 经 成 为 近 几 年 来 研究 的 热点 。 贝 叶 斯 网 络 采 用 一 个 DAG (Directed 
Acyclic Graph， 有 向 无 环 图 ) 表 示 ， 由 代表 变量 的 节点 和 连接 这 些 节点 的 有 向 边 构 成 。 节 点 
代表 随机 变量 ， 节 点 间 的 有 向 边 代 表 了 节点 间 的 相互 关系 (由 父 节点 指向 其 子 节点 )。 可 将 
从 节点 A 指向 节点 B 的 有 向 边 视 为 A “导致 ” B， 这 可 以 用 作 构 建 图 形 结构 的 指导 。 此 
外 ， 有 向 模型 可 以 对 确定 性 关系 进行 编码 ， 更 容易 学 习 。 贝 叶 斯 网 络 适用 于 不 确定 性 和 概 
率 性 事件 的 表达 和 分 析 ， 可 以 从 不 完全 、 不 精确 或 不 确定 的 知识 或 信息 中 进行 推理 。 

在 图 结构 中 ， 需 要 指定 模型 参数 。 对 于 有 向 图 ， 必 须 对 每 一 个 节点 指定 
CPD(Conditional Probability Distribution， 条 件 概 率 分 布 )。 如 果 变 量 是 离散 型 ， 可 以 采用 表 
的 形式 表示 ， 称 为 CPT(Conditional Probability Table， 条 件 概率 表 )， 列 出 子 节点 与 其 父 节 
点 的 每 一 种 值 的 组 合 所 对 应 的 概率 。 有 父 节 点 的 节点 用 条 件 概 率 表 示 关 系 强度 ， 没 有 父 节 
点 的 节点 则 使 用 先 验 概率 。 


6.1.1 简介 


本 节 首 先 以 一 个 简单 的 例子 来 说 明 什 么 是 贝 叶 斯 网 络 ， 然 后 再 说 明 如 何 使 用 贝 叶 斯 网 
络 进行 推理 ， 最 后 介绍 贝 叶 斯 算法 的 Weka 实现 。 


1. 经 典 的 贝 叶 斯 网 络 


6.1 是 一 个 经 典 贝 叶 斯 网 络 ， 已 经 为 很 多 文献 所 引用 。 其 中 ， 四 个 节点 Cloudy( 多 
云 )、Sprinkler( 酒 水 车 )、Rain( 下 雨 ) 和 WetGrass( 草 湿 ) 存 在 一 定 的 因果 关联 ， 如 “多 云 ” 会 
导致“ 下 雨 ”。 为 简化 起 见 ， 全 部 节点 都 是 二 元 的 ， 即 只 有 两 个 可 能 的 值 ， 采 用 T(true) 和 
F(false) 来 表示 。 

容易 得 出 ， 事 件 “ 草 湿 ”(W=true) 有 两 个 可 能 的 原因 : 要 么 是 开 酒水 车 (S=true)， 要 么 
是 下 雨 (R=true)。 其 关系 强度 显示 在 CPT 表 中 ， 例 如 ， 在 WetGrass 节点 的 CPT 表 第 二 行 
有 Pr(W=true | S=true, R=false) = 0.9， 因 此 有 Pr(W=false | S=true, R=false) = 1-0.9 = 0.1， 因 
为 每 一 行 的 和 必然 为 1。 因 为 节点 Cloudy 没有 父 节 点 ， 其 CPT 表 仅 表示 其 先 验 概 率 ， 本 
例 中 多 云 的 概率 为 0.5， 如 果 多 云 ， 就 不 大 会 开 酒 水 车 ， 下 雨 的 概率 也 增 大 。 

贝 叶 斯 网 络 中 ， 最 简单 的 条 件 独立 关系 可 以 表述 如 下 : 给 定 其 父 节点 ， 子 节点 独立 于 
其 祖先 节点 ， 其 中 的 祖先 节点 与 父 节点 的 关系 由 节点 的 固定 拓扑 顺序 决定 。 


@ Judea Pearl 是 美国 国家 工程 院 院士 ， 也 是 AAAI 和 IEEE 的 资深 会 员 ， 曾 获 2011 年 图 灵 奖 。 
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图 6.1 经 典 贝 叶 斯 网 络 


图 6.1 中 ， 全 部 节点 的 联合 概率 遵从 概率 的 链 式 法 则 ， 可 表述 为 
P(C. S, R, W) =P(C) x P(SIC) x P(RIC.S) x P(WIC.S.R) 

使 用 条 件 独立 关系 ， 可 以 将 上 述 公式 重 写 为 : 

P(C. S, R, W) = P(C) x P(SIC) x P(RIC) x P(WIS.R) 

可 以 看 到 ， 条 件 独立 关系 使 得 其 能 够 更 加 紧凑 地 表示 联合 概率 。 尽 管 这 里 节省 的 开销 
很 小 ， 但 在 一 般 情况 下 ， 如 果 有 m 个 二 元 节点 ， 完 整 的 联合 概率 需要 0(2”) 的 空间 ， 而 分 
解 形式 只 需要 O(n 29 的 空间 ， 这 里 左 为 一 个 节点 最 大 扇 入 (fan-in) 数 。 参 数 越 少 ， 运 算 的 开 
销 越 少 ， 学 习 越 轻松 。 

本 示例 的 网 络 结构 和 CPT 都 已 经 确定 ， 因 此 只 需要 进行 推理 即 可 。 但 对 于 大 部 分 的 情 
形 下 ， 很 有 可 能 既 不 知道 网 络 结构 ， 也 不 知道 CPT， 这 就 需要 进行 学 习 。 学 习 贝 叶 斯 网 络 
分 为 两 个 步骤 : 第 一 步 ， 学 习 贝 叶 斯 网 络 结构 ;第 二 步 ， 学 习 概率 表 。 由 于 贝 叶 斯 网 络 涉 
及 很 多 的 数学 知识 ， 而 本 书 也 不 准备 陷入 大 堆 公 式 的 沼泽 中 ， 因 此 只 是 从 应 用 的 角度 对 贝 
叶 斯 网 络 进行 介绍 。 如 果 读 者 想 要 更 多 地 学 习 贝 叶 斯 网 络 的 理论 知识 ， 请 参见 相关 书籍 。 


2. 贝 叶 斯 网 络 推理 

贝 叶 斯 推理 的 主要 目标 是 ， 在 给 定 观 察 节点 的 值 的 条 件 下 ， 估 计 隐 藏 节点 的 值 。 如 果 
我 们 可 以 观察 到 贝 叶 斯 模型 的 “ 叶 ”， 并 尝试 推断 导致 这 一 结果 的 隐藏 节点 值 ， 称 为 诊断 
(Diagnosis)， 或 称 为 自 底 向 上 的 推理 。 如 果 我 们 观察 到 贝 叶 斯 模型 的 “ 根 ”， 并 尝试 预测 
其 结果 ， 这 就 称 为 预测 ， 或 称 为 自 顶 向 下 的 推理 。 贝 叶 斯 网 络 可 以 采用 这 两 种 方法 。 

例如 ， 对 于 图 6.1 的 网 络 ， 假 如 我 们 观察 到 “ 草 湿 ”(W=true) 这 一 事实 ， 有 两 个 可 能 
的 原因 : 要 么 是 下 雨 ， 要 么 是 洒水 车 。 如 果 要 问 这 两 者 哪个 可 能 性 更 大 ? 我 们 可 以 使 用 由 
叶 斯 规则 计算 每 一 个 原因 的 后 验 概率 。 贝 叶 斯 规则 规定 : 
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PCOIX)P(X) 
P(y) 
其 中 ,了 为 隐藏 的 节点 ，y 为 所 观察 到 的 证 据 。 按 照 标准 的 做 法 ， 用 大 写字 母 表示 随 
机 变量 ， 用 小 写字 母 表示 采样 值 。 如 果 用 语言 来 表示 ， 这 个 公式 变 为 : 
。_ 条 件 似 然 x 先 验 概率 
后 验 概率 = 一 一 位 外 一 
本 例 中 ， 用 1 代表 tue， 用 0 代表 false， 当 
P(W =1)=7,,,P(C=c,S=s,R=r,W =1)=0.6471 
为 归 一 化 常数 ， 等 于 数据 的 概率 ( 似 然 )。 于 是 有 : 
P(S=LW=1) 2,,P(C=¢,$=LR=r,W=1) 


P(X1|y)= 


P(S=1|W=1)= = 
P(W=1) P(W=1) 
=02781_ 0 4298 
0.6471 
和 
PR =D) = RL-D_ ZrC0S sR LD 
P(W =1) P(W =1) 
=04581 -07079 
0.6471 
从 上 述 两 个 公式 的 结果 容易 看 到 : 草地 湿 的 更 有 可 能 的 原因 是 因为 下 雨 ， 而 不 是 因为 
酒水 车 。 


一 般 情况 下 ， 使 用 贝 叶 斯 规则 计算 后 验 概率 估计 的 计算 复杂 度 较 高 。 好 在 Weka 本 身 
能 够 帮助 我 们 完成 这 一 工作 ， 请 读者 记 住 这 里 得 到 的 后 验 概率 ， 后 文 直接 使 用 Weka 的 贝 
叶 斯 网 络 GUI 来 验证 所 得 的 结论 。 


3. 贝 叶 斯 算法 的 Weka 实现 


Weka 实现 的 全 部 贝 叶 斯 算法 都 假定 数据 集 满足 如 下 要 求 。 
(1) 所 有 的 变量 都 是 离散 的 有 限 变 量 。 如 果 有 一 个 连续 变量 的 数据 集 ， 可 以 使 用 以 下 
过 滤器 对 其 进行 离散 化 : 


weka.filters.unsupervised.attribute.Discretize 


(2) 实例 不 能 有 缺失 值 。 如 果 数 据 集 有 缺失 值 ， 请 使 用 如 下 过 滤器 对 其 进行 填充 : 

weka.filters.unsupervised.attribute.ReplaceMissingValues 

buildClassifier0 方 法 所 执行 的 第 一 步 就 是 检查 数据 集 是 否 满足 上 述 两 个 假设 。 如 果 不 
符合 要 求 ， 会 自动 过 滤 数 据 集 ， 并 将 警告 写 入 标准 错误 输出 (STDERR)。 如 果 测 试 数据 中 
有 缺失 值 ， 但 训练 数据 中 没有 ， 则 使 用 ReplaceMissingValues 过 滤器 根据 训练 数据 填充 测 

Weka 实现 的 主要 贝 叶 斯 算法 如 下 。 

BayesNet 算法 在 满足 标 称 属性 和 没有 缺失 值 两 个 条 件 下 学 习 贝 叶 斯 网 络 。 有 四 种 不 同 
的 算法 可 用 于 估计 网 络 的 条 件 概率 表 。 搜 索 可 以 使 用 K2 或 TAN 算法 ,或 者 更 为 复杂 的 息 


山 法 、 模 拟 退火 、 禁 忌 搜 索 和 遗传 算法 。 或 者 ， 可 以 使 用 AD-trees 提高 搜索 速度 。 有 两 种 
算法 使 用 条 件 独立 测试 来 学 习 网 络 的 结构 ， 也 可 以 从 XML 文件 加 载 网 络 结构 。BayesNet 
的 特色 是 支持 网 络 结构 的 可 视 化 ， 详 见 下 节 。 

NaiveBayes 算法 实现 了 朴素 贝 叶 斯 分 类 器 算法 ， 它 假设 属性 之 间 相 互 独立 。 
NaiveBayes 可 以 使 用 核 密度 估计 器 ， 能 够 在 不 满足 正 态 分 布 假设 的 情形 下 提高 性 能 。 它 还 
能 使 用 有 监督 的 离散 化 处 理 数值 属性 。NaiveBayesMultinomial 算法 构建 并 使 用 多 项 式 朴素 
贝 叶 斯 分 类 器 类 ， 它 仅 能 处 理 连续 数值 类 型 的 属性 ， 以 及 标 称 型 的 类 别 属 性 。 
NaiveBayesMultinomialText 算法 处 理 文本 数据 的 多 项 式 朴素 贝 叶 斯 分 类 器 ， 它 能 直接 处 理 
字符 串 属性 ， 它 也 能 接受 其 他 类 型 的 输入 属性 ， 但 在 训练 和 分 类 时 忽略 这 些 属性 。 
NaiveBayesMultinomialUpdateable 构建 并 使 用 多 项 式 朴 素 贝 叶 斯 分 类 器 类 。 
NaiveBayesUpdateable 算法 使 用 估算 器 类 的 朴素 贝 叶 斯 分 类 器 类 ， 是 NaiveBayes 的 可 更 新 
版 本 。 


6.1.2” 贝 叶 斯 网 络 编辑 器 

贝 叶 斯 网 络 编辑 器 是 一 个 单独 的 应 用 程序 ， 启 动 该 编辑 器 窗口 的 方式 有 两 种 。 第 一 种 
方式 在 Weka GUI 选择 器 窗口 下 ， 通 过 在 菜单 中 选择 “Tools | Bayes net editor” 菜 单项 启 
动 ， 第 二 种 方式 需要 通过 命令 行进 入 Weka 安装 目录 ， 在 命令 行 输入 如 下 命令 : 


java -classpath weka.jar weka.classifiers.bayes.net.GUI 


按 Enter 键 就 可 以 启动 贝 叶 斯 网 络 编辑 器 窗口 ， 如 图 6.2 所 示 。 
Ep 
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6.2 ”启动 后 的 贝 叶 斯 网 络 编辑 器 窗口 


1. 贝 叶 斯 网 络 编辑 器 特性 

贝 叶 斯 网 络 编辑 器 是 一 个 单独 的 应 用 程序 ， 具 有 如 下 特性 。 

(1) 完全 用 手工 方式 编辑 贝 叶 斯 网 络 ， 具 有 无 限制 的 undo/redo( 撤 消 / 重 做 ) 栈 ， 支 持 前 
切 、 复 制 和 粘贴 ， 也 支持 布局 。 

(2) 使 用 Weka 学 习 算法 ， 从 数据 中 学 习 贝 叶 斯 网 络 。 

(3) 使 用 Weka 学 习 算 法 ， 手 工 编辑 结构 并 学 习 条 件 概率 表 (CPT) 参 数 。 

(4) 由 贝 叶 斯 网 络 生成 数据 集 。 
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(5) 以 交互 方式 改变 节点 值 ， 使 用 联合 树 (Junction Tree，JT) 算 法 通过 网 络 进行 证 据 
推理 。 

(6) 在 联合 树 中 查看 团 (Cliques)。 

(7) 为 多 数 常见 操作 提供 快捷 键 支持 。 

2. 基本 编辑 方法 

1) 移动 节点 

用 鼠标 单 击 节点 并 拖 动 节点 到 所 希望 的 位 置 。 

2) 选择 一 组 节点 

使 用 鼠标 在 图 形 面 板 中 单 击 并 拖 动 ， 可 以 看 到 形成 一 个 和 矩形， 释放 鼠标 时 ， 选 中 和 矩形 
框 内 的 所 有 节点 。 判 断 节点 是 否 选中 的 方法 是 ， 选 中 的 节点 四 周 有 黑 色 小 方块 。 

也 可 以 在 按 住 Shift 键 的 同时 选择 另 一 组 节点 ， 这 样 可 以 扩展 选择 的 范围 。 

可 以 通过 按 住 Ctrl 键 来 切换 是 否 选中 节点 ， 这 样 矩 形 中 所 有 的 选中 节点 由 选中 切换 为 
没有 选中 ， 而 没有 选中 的 节点 切换 为 选中 。 

可 通过 按 住 鼠标 左 键 并 将 一 组 选 定 的 节点 拖 动 到 所 希望 的 位 置 上 ， 实 现成 组 节点 的 
移动 。 

3. 菜单 使 用 

1) 文件 菜单 

如 图 6.3 所 示 ， 文 件 菜单 从 上 到 下 的 菜单 项 有 : New( 新 建 )、Load( 加 载 )、Save( 保 
存 )、Save As( 另 存 为 )、Print( 打 印 )、Export( 导 出 ) 和 Exit( 退 出 )， 这 些 菜单 项 的 功能 显 而 易 
见 ， 不 用 多 说 。 使 用 的 图 形 文件 格式 是 XML BIF(Bayesian Network Interchange Format， 贝 
叶 斯 网 络 可 交换 格式 )。 

贝 叶 斯 网 络 编辑 器 支持 打开 如 下 两 种 文件 格式 。 

(1) XML BIF 文件 格式 。 贝 叶 斯 网 络 可 以 通过 文件 中 的 信息 进行 重建 。 由 于 不 会 存储 
节点 宽度 信息 ， 因 此 节点 以 默认 宽度 显示 。 通 过 Tools | Layout 菜单 命令 ， 对 图 重新 布局 可 

(2) Weka .arff 数据 文件 格式 。 当 选择 ARFF 文件 时 ， 会 创建 一 个 新 的 空 的 贝 叶 斯 网 
络 ， 其 节点 为 每 个 ARFF 文件 中 的 属性 。 使 用 weka filters.supervised.attribute.Discretize 过 
滤器 对 连续 变量 离散 化 ， 还 可 以 指定 网 络 结构 ， 并 且 通 过 使 用 Tools | Leam CPT 菜单 项 可 
以 学 习 条 件 概率 表 CPT。 

Export( 导 出 ) 菜 单项 可 以 将 图 形 面板 写 到 图 像 文件 中 ， 目 前 支持 BMP、JPG、PNG 和 
EPS 格式 。 还 可 以 在 图 形 面板 中 使 用 AlttShift+ 单 击 激活 本 操作 。 

2) 编辑 菜单 

编辑 菜单 如 图 6.4 所 示 。 

Weka 支持 无 限制 的 undo/redo( 撤 消 / 重 做 ) 操 作 。 贝 叶 斯 网 络 的 大 多 数 编辑 操作 都 是 可 
以 撤消 的 ， 唯 一 例外 的 是 学 习 网 络 和 学 习 CPT， 这 两 个 操作 不 可 撤消 。 

支持 Cutcopy/paste( 剪 切 /复制 /粘贴 ) 操 作 。 当 选择 一 组 节点 后 ， 可 以 用 剪 切 或 复制 操 
作 放 置 在 剪贴 板 里 ， 再 使 用 粘贴 操作 可 添加 节点 。 注 意 到 这 里 的 剪贴 板 仅 供 内 部 使 用 ， 所 
以 无 法 与 其 他 应 用 程序 进行 交互 。 新 节点 重 命名 为 原来 节点 ， 名 称 前 加 上 Copy of 字符 


串 ， 如 果 有 必要 ， 还 会 加 上 编号 以 确保 名 称 的 唯一 性 。 除 复制 节点 外 ， 还 复制 节点 间 的 连 
接 关 系 ， 但 只 复制 与 父 节点 的 连接 ， 而 不 复制 与 子 节点 的 连接 。 


x 
外 


图 6.3 文件 菜单 图 6.4 编辑 菜单 


Add Node( 添 加 节点 ) 菜 单 将 显示 一 个 对 话 框 ， 允 许 指定 新 节点 的 名 称 ， 以 及 新 节点 的 
重 数 (Cardinality)， 重 数 指 该 节点 有 多 少 个 值 ， 如 图 6.5 所 示 。 节 点 的 值 赋予 名 称 Valuel、 
Value2 等 ， 这 些 值 可 以 重 命名 ， 只 要 右 击 面板 上 该 节点 并 选择 Rename Value( 重 命名 值 ) 菜 
单项 。 另 一 种 方法 是 复制 粘贴 其 节点 值 已 经 正确 命名 的 节点 并 重新 命名 。 

Add Arc( 添 加 连 线 ) 菜 单 会 弹出 一 个 对 话 框 ， 要 求 先 选择 一 个 子 节点 ， 如 图 6.6 所 示 。 


图 6.5 添加 节点 对 话 框 图 6.6 先 选 择 子 节点 


当选 择 好 子 节点 之 后 ， 单 击 “ 确 定 ” 按 钮 ， 然 后 Weka 会 显示 一 个 选择 父 节点 对 话 
框 ， 如 图 6.7 所 示 。 下 拉 列 表 框 中 不 列 出 子 节点 的 后 代 节点 、 子 节点 的 父 节 点 以 及 节点 本 
身 ， 因 为 这 样 将 导致 形成 一 个 环 ( 记 住 贝 叶 斯 网 络 只 是 有 向 无 环 图 )， 或 者 在 网 络 中 已 有 一 
条 连 线 的 情况 下 再 添 一 条 多 余 的 连 线 ， 所 以 这 些 节 点 不 能 选 定 作为 父 节 点 。 

Delete Arc( 删 除 连 线 ) 菜 单项 会 弹出 一 个 对 话 框 ， 下 拉 列 表 框 中 显示 可 以 删除 的 所 有 连 


线 ， 如 图 6.8 所 示 。 


= 
Select parent node for Node2 
二 


ED E 


图 6.7 选择 父 节 点 图 6.8 删除 连 线 
只 有 当 一 组 中 至 少 选 中 两 个 节点 时 ， 编 辑 菜单 底部 的 八 个 菜单 项 才 会 激活 。 其 中 : 
(1) Align LefyRight/Top/Bottom( 向 左 / 右 / 上 /下 对 齐 ) 菜 单项 移动 选中 的 节点 ， 使 得 所 有 
节点 分 别 向 左 、 向 右 、 向 上 或 向 下 进行 对 齐 。 
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(2) Center HorizontalVertical( 向 水 平 /垂直 中 线 对 齐 ) 菜 单项 移动 选中 的 节点 到 最 左边 和 
最 右边 形成 的 中 线 上 ， 或 到 最 上 边 和 最 下 边 形成 的 中 线 上 。 

(3) Space Horizontal/Vertical( 水 平 /垂直 间隔 均匀 ) 菜 单项 使 选中 的 节点 从 最 左边 和 最 右 
边 (或 从 最 上 边 到 最 下 边 ) 间 隔 均匀 地 分 布 。 选 择 节点 的 顺序 影响 节点 最 终 移 动 到 的 位 置 。 

3) 工具 菜单 

工具 菜单 如 图 6.9 所 示 。 

Generate Network( 生 成 网 络 ) 菜 单项 可 以 产生 一 个 完全 随机 的 贝 叶 斯 网 络 。 它 会 弹出 一 
个 对 话 框 ， 以 指定 节点 数目 、 连 线 数目 、 重 数 以 及 生成 网 络 的 随机 种 子 ， 如 图 6.10 所 示 。 


Fle Edit FSB View Help 
Generate Network Curl+N 


Generate Data Cuil+D 


Set Data ColiA 
Learn Network Cyl+l I of nodes 10 
Learn CPT Wr of arcs 15 
汞 tayout Corltl Cardinality 2 
Show Mergins Randoe seed123 
Show Cliques 
图 6.9 工具 菜单 6.10 ”生成 网 络 对 话 框 


Generate Data( 生 成 数据 ) 菜 单项 用 于 为 编辑 器 中 的 贝 
叶 斯 网 络 生成 数据 集 。 它 会 弹出 一 个 如 图 6.11 所 示 的 对 话 
框 ， 以 指定 产生 的 实例 数 、 随 机 数 种 子 ， 以 及 要 保存 数据 
集 的 文件 ， 其 文件 格式 为 ARFF。 如 果 没 有 选中 文件 (该 字 
段 为 空 )， 则 只 是 设置 内 部 数据 集 而 不 写 文件 。 

Set Data( 设 置 数据 ) 菜 单项 设置 当前 数据 集 。 从 这 些 数 
据 集 可 以 学 习 一 个 新 的 贝 叶 斯 网 络 ， 可 以 估计 网 络 的 CPT 
参数 。 弹 出 文件 选择 对 话 框 以 选择 包含 数据 的 ARFF 文 
件 ， 如 图 6.12 所 示 。 


6.12 ”设置 数据 文件 对 话 框 


Leam Network 和 Learn CPT 菜单 项 只 有 在 指定 数据 集 后 才 会 激活 ， 指 定数 据 集 有 以 下 
三 种 方式 : 第 一 种 ，Tools | Set Data 菜单 项 ; 第 二 种 ，Tools | Generate Data 菜单 项 ， 第 三 
种 ，File | Open 菜单 项 打开 ARFF 文件 。 


Learm Network( 学 习 网 络 ) 菜 单项 从 数据 集 学 习 整 个 贝 叶 斯 网 络 。 在 如 图 6.13 所 示 的 对 
话 框 中 选择 Options( 选 项 ) 按 钮 ， 可 以 选择 Weka 可 用 的 学 习 算法 。 


国 Leam Bayesian Network 


| options |s. net estinate SinpleEstinator — -A 0.| 
Leern, Cencel. 
一 一 一 一 -一 一 


图 6.13 学 习 贝 叶 斯 网 络 对 话 框 


Learm CPT( 学 习 CPT) 菜 单项 不 改变 贝 叶 斯 网 络 的 结构 ， 只 改变 概率 表 。 

Layout( 布 局 ) 菜 单项 在 网 络 上 运行 图 的 布局 算法 ， 并 试 
图 使 图 形 更 具 可 读 性 ， 如 图 6.14 所 示 。 当 选择 该 菜单 项 
时 ， 可 以 选中 Custom Node Size( 自 定义 节点 大 小 ) 复 选 框 指 
定 节点 的 宽 和 高 ， 或 者 ， 通 过 不 选中 该 复 选 框 ， 由 算法 根 
据 标签 大 小 自行 计算 。 

Show Margins( 显 示 边缘 ) 菜 单项 显示 边缘 分 布 ， 这 些 
计算 使 用 联合 树 算法 。 节 点 的 边缘 概率 显示 为 节点 旁 的 绿 图 6.14 图 布局 选项 对 话 框 
色 文 本 。 可 以 设置 节点 的 值 ， 操 作 步 又 为 右 击 节点 ， 在 
弹出 的 上 下 文 菜单 中 选择 Set evidence( 设 置 证 据 ) 菜 单项 ， 然 后 再 选择 一 个 值 。 设 置 后 的 节 
点 旁 的 文本 颜色 由 绿色 变 为 红色 ， 以 表示 为 节点 设置 了 证 据 ， 如 图 6.15 所 示 。 边 缘 概 率 可 
能 会 发 生 舍 入 误差 。 


泗 同 注 下 eM 二 9 游 他 = 


图 6.15 设置 证 据 后 的 网 络 


Show Cliques( 显 示 团 ) 菜 单项 使 用 联合 树 算法 显示 团 ， 团 可 视 化 为 采用 彩色 无 向 边 ， 如 
图 6.16 所 示 。 边 缘 和 团 都 可 以 在 同一 时 间 显 示 ， 只 是 使 网 络 图 形 更 加 拥挤 。 

4) 视图 菜单 

View( 视 图 ) 菜 单 可 以 放大 和 缩小 图 形 面 板 。 此 外 ， 还 可 以 隐藏 或 显示 状态 栏 和 工具 
栏 ， 如 图 6.17 所 示 。 

5) 帮助 菜单 

帮助 菜单 下 有 两 个 菜单 项 一 一 Help( 帮 助 ) 和 About( 关 于 )， 如 图 6.18 所 示 。 单 击 则 会 弹 
出 显示 一 些 基 本 帮助 信息 的 对 话 框 。 
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6.16 ”显示 团 后 的 网 络 


File Edit Tools (View) Help 


全 Zoomin 
一 一 | 二 Fle Edit Tools View [FEB] 
View toolbar D ® Hep 
View statusbar About 
图 6.17 视图 菜单 图 6.18 帮助 菜单 


6) 工具 栏 

工具 栏 能 让 用 户 使 用 很 多 功能 的 快捷 方式 ， 如 图 6.19 所 示 。 只 需 将 鼠标 悬 停 在 工具 栏 
按钮 上 ， 弹 出 的 提示 文本 会 告诉 用 户 该 按钮 的 功能 。 使 用 View/View Toolbar( 视 图 /查看 工 
具 栏 ) 菜 单 ， 可 以 显示 或 隐藏 工具 栏 。 


DD 器 上 有 名品 全 区 阐 办 引 国 图 MH 开 人 wm 莫 


图 6.19 工具 栏 


7) 状态 栏 

在 窗口 底部 有 一 个 显示 信息 的 状态 栏 。 当 执行 undo/redo( 撤 消 / 重 做 ) 操 作 时 ， 如 果 无 法 
看 到 影响 的 效果 ， 如 CPT 的 编辑 操作 ， 状 态 栏 会 有 一 些 帮助 。 使 用 View/View 
Statusbar( 视 图 /查看 状态 栏 ) 菜 单 ， 可 以 显示 或 隐藏 状态 栏 。 


4. 上 下 文 菜单 


在 绘图 面板 的 节点 外 右 击 会 弹出 如 图 6.20 所 示 的 弹出 式 菜单 ，Add node( 添 加 节点 ) 菜 
单项 在 单 击 位 置 添加 一 个 节点 ，Add parent( 添 加 父 节点 ) 添 加 所 选中 的 所 有 节点 的 父 节点 。 
如 果 没 有 选中 节点 ， 或 没有 可 以 添加 的 父 节点 ， 会 禁用 该 功能 。 

在 节点 上 右 击 ， 会 弹出 一 个 上 下 文 菜单 。 

上 下 文 菜 单 的 Set evidence( 设 置 证 据 ) 菜 单项 只 有 在 使 用 Tools/Show margins 菜单 显示 
边缘 概率 时 才 可 用 ， 该 菜单 项 显示 一 个 值 的 列表 ， 可 以 为 选中 的 节点 设置 证 据 ， 如 图 6.21 
所 示 。 选 择 Clear( 清 除 ) 菜 单项 ， 则 删除 该 节点 的 值 ， 并 根据 CPT 表 计 算 边 缘 概率 。 

节点 可 以 重新 命名 ， 在 节点 上 右 击 ， 然 后 在 弹出 的 上 下 文 菜单 中 选择 Rename( 重 命名 ) 
菜单 项 。 弹 出 如 图 6.22 所 示 的 对 话 框 ， 输 入 新 的 节点 名 称 。 


Set evidence 1 ‘Cinf-245] 
"245-475] 
"(4.75-inf)’ 


Rename 
Delete node 
Edit CPT Clear 


Addparent » 
Delete parent » 


Add node Deletechild » 


Add parent 上 sepallength Add value 
sepalwidth Rename value » 
petallength Delete value ， 
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图 6.20 弹出 式 菜单 图 6.21 设置 证 据 菜单 


通过 选中 一 个 节点 ， 右 击 并 在 上 下 文 菜单 中 选择 Edit CPT( 编 辑 CPT) 菜 单项 ， 就 可 以 
手动 编辑 节点 的 CPT 表 ，CPT 表 显 示 为 一 个 如 图 6.23 所 示 的 对 话 框 。 当 编辑 一 个 值 时 ， 
该 表 的 其 余部 分 的 值 会 同步 更 新 ， 以 确保 每 行 的 概率 之 和 为 1。CPT 会 首先 尝试 调整 最 后 
一 列 ， 然 后 再 依次 向 前 调整 。 选 择 Randomize( 随 机 化 ) 按 钮 ， 可 以 将 随机 生成 的 分 布 填充 
整个 表 。 


© Probability Distribution Table For sepalwidth 


图 6.22 节点 重 命名 图 6.23 编辑 CPT 
弹出 菜单 会 显示 可 以 添加 到 选中 节点 的 父 节 点 的 列表 。 通 过 复制 新 的 父 节点 的 每 个 
值 ， 来 更 新 节点 的 CPT 表 ， 如 图 6.24 所 示 。 
弹出 菜单 显示 选中 节点 可 以 删除 的 父 节 点 列表 。 节 点 的 CPT 只 保留 父 节点 第 一 个 值 的 
条 件 概率 ， 如 图 6.25 所 示 。 


pr 1 Setevidence » 
Set evidence » 
Rename 
Rename 
Delete node De nos 
Edit CpT Edit CpT 
Add parent 上 sepallength Add parent » 
Delete parent 上 petallength Delete parent 上 class 
Delete child 1 petawidth Delete chid » 
Add value Add value 
Rename value » Rename value » 
De vahe Delete value ， 
图 6.24 添加 父 节点 图 6.25 删除 父 节点 


弹出 菜单 显示 选中 节点 可 以 删除 的 子 节点 列表 ， 子 节点 的 CPT 只 保留 父 节点 第 一 个 值 


的 条 件 概率 ， 如 图 6.26 所 示 。 
从 上 下 文 菜单 中 选择 Add Value( 添 加 值 ) 菜 单项 会 弹出 如 图 6.27 所 示 的 对 话 框 ， 可 以 
指定 节点 的 新 值 名 称 。 该 节点 的 概率 分 布 赋 为 零 值 ， 子 节点 的 CPT 更 新 为 复制 新 值 的 条 件 
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Set evidence » 


Rename 


Delete node 

Edit CPT 

Add parent » 

Delete parent »| E 
Delete chid | sepallenath 
Add value 0 
Rename value | esi 
Delete value 1 Pe 


6.26 ”删除 子 节点 


Node sepalwidth 
Fr New value Value4 
] 


Ca ]La |] 


6.27 


添加 值 


从 上 下 文 菜单 中 选择 Rename value( 重 命名 值 ) 显 示 选 中 节点 可 以 重 命名 的 值 列 表 ， 如 


6.28 所 示 。 


在 图 6.28 中 选择 一 个 值 会 弹出 一 个 对 话 框 ， 指 定 新 的 名 称 ， 如 图 6.29 所 示 。 


Setevidence » 


Rename 
Delete node 
Edit CpT 


Add parent » 
Delete parent » 
Delete child ， 


Add value 


Rename value 1 
Delete value ! 


‘Cinf-0.8] 
"0.8-1.75 
(1.75-inf)' 


图 6.28 重 命名 值 


sa 
有 New name for value ‘(1.75-inf) 
Ni 由 


6.29 重 命名 


上 下 文 菜单 的 Delete value( 删 除 值 ) 菜 单项 显示 选中 节点 可 以 删除 的 值 列表 ， 如 图 6.30 
所 示 。 当 节点 有 两 个 值 以 上 时 ( 单 值 节点 的 值 没 有 太 大 的 意义 )， 该 菜单 项 才 可 用 。 通 过 选 
择 值 ， 更 新 节点 的 CPT， 以 确保 CPT 之 和 为 1。 通 过 删除 值 的 条 件 分 布 ， 更 新 子 节点 的 


CPT。 


5. CPT 学 习 


Set evidence » 


Rename 
Delete node 
Edit pT 

Add parent » 
Delete parent ， 
Delete chid » 
Add value 
Rename value » 
Delete value 1 ‘tinfFo8) 
‘Oa-175] 
‘(1.75-inf)’ 


6.30 删除 值 


贝 叶 斯 网 络 类 可 以 将 连续 变量 离散 化 ， 离 散 化 算法 根据 数据 集 信息 选择 它 的 值 。 然 
而 ， 这 些 值 并 不 存储 在 任何 地 方 。 因 此 ， 使 用 File | Open 菜单 项 读 取 连 续 变量 的 ARFF 文 
件 ， 人 允许 指定 网 络 ， 然 后 从 数据 中 学 习 CPT， 因 为 其 离散 范围 已 知 。 但 是 ， 如 果 打开 一 个 
ARFF 文件 ， 指 定 一 个 结构 ， 然 后 关闭 应 用 程序 ， 重 新 打开 并 试图 从 另 一 个 包含 连续 变量 


e@ 


的 文件 中 学 习 网 络 可 能 无 法 得 到 期 望 的 结果 ， 因 为 重新 应 用 离散 化 算法 ， 可 能 找到 新 的 边 
界 。 这 样 可 能 产生 意外 的 结果 。 

从 包含 比 网 络 节点 更 多 属性 的 数据 集 进行 学 习 是 没有 问题 的 ，Weka 将 忽略 额外 的 
属性 。 

从 不 同属 性 顺序 的 数据 集 进行 学 习 也 是 没有 问题 的 ， 属 性 与 节点 之 间 只 是 根据 名 称 进 
行 匹 配 。 然 而 ， 属 性 值 与 节点 值 之 间 是 根据 值 的 顺序 进行 匹配 的 。 

数据 集中 的 属性 应 该 与 网 络 中 的 相应 节点 有 相同 数目 的 值 。 


6.1.3 在 探索 者 中 使 用 贝 叶 斯 网 络 


在 探索 者 界面 的 分 类 面板 中 ， 单 击 Choose 按钮 ， 在 weka.classifiers.bayes 包 下 找到 
BayesNet 分 类 器 ， 如 图 6.31 所 示 。 
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图 6.31 BayesNet 分 类 器 


BayesNet 分 类 器 选项 如 图 6.32 所 示 。 其 中 ，BIFFile 选项 用 于 指定 以 BIF 格式 存储 的 
贝 叶 斯 网 络 。 在 学 习 贝 叶 斯 网 络 之 后 ， 调 用 toString0 方 法 ， 将 学 习 到 的 网 络 与 文件 中 的 网 
络 相 比 较 ， 打 印 出 额外 的 统计 数据 ， 如 多 出 的 和 缺少 的 连 线 。searchAlgorithm 选项 用 于 选 
择 网 络 结构 的 学 习 算法 ， 并 指定 其 选项 。estimator 选项 用 于 选择 估计 条 件 概 率 分 布 所 使 用 
的 方法 。 当 useADTree 选项 设置 为 True 时 ， 使 用 摩尔 ADTree 算法 计算 代价 。 因 为 Weka 
认为 该 算法 在 小 的 数据 集 上 并 没有 什么 改进 ， 于 是 默认 关闭 该 选项 。 注 意 到 本 ADTree 算 
法 与 weka.classifiers.tree.ADTree 里 的 ADTree 分 类 算法 不 同 ， 前 者 为 增加 运算 速度 的 数据 
结构 ， 后 者 为 分 类 算法 。debug 选项 在 此 没有 作用 。 
©O wekaguiGenericObjectdtor oo — 
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贝 叶 斯 网 络 的 学 习 算法 被 分 为 两 个 阶段 : 首先 是 学 习 网 络 结构 ， 然 后 学 习 概 率 表 。 学 
习 网 络 结构 的 算法 很 多 ， 单 击 searchAlgorithm 选项 后 的 Choose 按钮 就 可 以 大 致 了 解 ， 下 
面 分 别 介绍 这 些 学 习 算法 。 

6.1.4 学 习 算 法 

贝 叶 斯 网 络 结构 学 习 有 多 种 不 同 的 方式 ，Weka 将 结构 学 习 划 分 为 如 下 四 种 类 型 。 

第 一 类 ， 局 部 计 分 量度 (Local Score Metrics)。 可 以 把 学 习 网 络 结构 看 成 一 个 给 定 训练 
数据 ， 使 网 络 结构 质量 量度 最 大 化 的 优化 问题 。 质 量 量度 可 以 根据 贝 叶 斯 方法 、 最 小 描述 
长 度 、 信 息 和 其 他 标准 。 这 些 量度 的 实用 特性 是 ， 整 个 网 络 的 分 数 可 以 分 解 为 各 个 节点 的 
分 数 的 总 和 (或 乘积 )。 这 使 得 整个 网 络 的 分 数 可 以 用 局 部 分 数 表 示 ， 因 此 ， 可 用 局 部 搜索 
方法 。 

第 二 类 ， 条 件 独立 测试 (Conditional Independence Tests)。 这 些 方法 主要 源 于 发 现存 在 
因果 关系 结构 的 目标 。 其 假定 是 : 有 一 个 网 络 结构 能 够 精确 地 表示 生成 数据 分 布 的 独立 
性 。 那 么 ， 如 果 可 以 确定 两 个 变量 之 间 数 据 的 (条 件 ) 独 立 性 ， 这 两 个 变量 之 间 没 有 箭头 。 
一 旦 确定 边 的 位 置 ， 以 及 指定 了 边 的 方向 ， 这 样 ， 就 可 以 适当 地 表示 数据 的 条 件 独 立 性 。 

第 三 类 ， 全 局 计 分 量度 (Global Score Metrics)。 对 于 一 个 给 定 的 数据 集 ， 评 估 贝 叶 斯 网 
络 性 能 一 种 自然 的 方式 是 ， 通 过 估算 期 望 效 用 (如 分 类 的 准确 性 ) 来 预测 其 未 来 性 能 。 交 叉 
验证 通过 反复 将 数据 划分 为 训练 集 和 验证 集 ， 对 样本 进行 评估 ， 提 供 了 可 行 的 量度 方法 。 
通过 训练 集 估 计 网 络 的 参数 ， 以 及 用 验证 集 判 定 贝 叶 斯 网 络 的 性 能 ， 可 以 评估 贝 叶 斯 网 络 
的 结构 。 贝 叶 斯 网 络 对 训练 集 的 平均 性 能 为 评估 网 络 质量 提供 了 一 个 量度 。 

交叉 验证 与 局 部 计 分 量度 的 不 同 点 在 于 ， 网 络 结构 的 质量 往往 不 能 分 解 为 用 各 个 节点 
的 分 数 表 示 。 因 此 ， 需 要 综合 考虑 整个 网 络 以 确定 其 得 分 。 

第 四 类 ， 固 定 结构 (Fixed Structure)。 最 后 ， 还 有 一 些 适 用 于 其 网 络 结构 固定 的 方法 。 
例如 ， 从 XML BIF 文件 读 取 网 络 结构 。 

下 面 分 别 说 明 这 几 类 学 习 算 法 。 

1. 条 件 独 立 测 试 

与 其 他 的 网 络 学 习 算 法 不 同 ， 条 件 独 立 测 试 结构 学 习 算法 没有 采用 基于 评分 的 搜索 方 
法 ， 而 是 采用 基于 依赖 性 测试 的 方法 ， 在 给 定数 据 集中 评估 变量 之 间 的 条 件 独立 性 关系 ， 
构建 网 络 结构 。 目 前 ，Weka 只 实现 了 CI 和 ICS 两 种 算法 ， 如 图 6.33 所 示 。 

CISearchAlgorithm 算法 基于 条 件 独 立 性 测试 ， 支 持 贝 叶 斯 网 络 结构 的 搜索 算法 。 

ICSSearchAlgorithm 贝 叶 斯 网 络 学 习 算法 使 用 条 件 独立 测试 以 发 现 网 络 构架 ， 找 到 V- 
节点 并 应 用 的 一 套 规则 来 发 现 剩 余 箭头 的 方向 。 

2. 固定 结构 学 习 

通过 选择 固定 的 网 络 结 构 ， 可 以 跳 过 结构 学 习 步 骤 。 有 两 种 方法 可 以 得 到 固定 的 网 
络 结构 : 第 一 种 从 文件 中 读 取 XML BIF 格式 的 数据 ;第 二 种 采用 朴素 贝 叶 斯 网 络 。 如 
图 6.34 所 示 。 
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6.34 固定 结构 学 习 


3. 全 局 评分 量度 

Weka 的 全 局 评分 量度 实现 了 如 下 算法 : Genetic Search( 遗 传 搜索 )、HillClimbing( 疏 山 
法 )、K2 、RepeatedHillClimber( 重 复 息 山 法 )、Simulated Annealing( 模 拟 退 火 )、Tabu 
Search( 禁 忌 搜 索 ) 和 TAN(Tree-Augmented Naive Bayes， 树 增强 朴素 贝 叶 斯 )。 如 图 6.35 
所 示 。 

基于 交叉 验证 算法 的 通用 选项 有 : initAsNaiveBayes 、markovBlanketClassifier 和 
maxNrOfParents， 参 见 “4. 局 部 评分 量度 ”。 

另外 ， 对 于 每 个 基于 交叉 验证 的 算法 ， 可 以 选择 的 CVType 有 以 下 几 种 。 

(1) Leave one out cross-validation(LOO-CV， 留 一 法 交叉 验证 )。 从 数据 集 D 中 去 掉 第 i 
个 样本 数据 ， 将 该 第 i 个 样本 数据 作为 验证 集 ， 剩 下 的 样本 数据 作为 训练 集 D! ， 一 共有 
m=N 种 划分 。 留 一 法 交叉 验证 并 不 总 能 产生 准确 的 性 能 估计 。 

(2) K-fold cross-validation(k-Fold-CV, 大 折 交 叉 验 证 )。 将 数据 集 D 大 致 平均 地 划分 为 
mn 等 分 一 一 D1/、D，,、…、Dm。 将 验证 集 D; 从 数据 集 D 中 移 除 就 得 到 训练 集 D! 。 典 型 的 m 
值 可 为 5、10 和 20。 如 果 取 m=-N, 大 折 交 叉 验 证 就 成 为 留 一 法 交叉 验证 LOO-CV。 

(3) Cumulative cross-validation(Cumnulative-CV， 累 积 交叉 验证 )。 从 一 个 空 数据 集 开 
始 ， 从 数据 集 D 中 一 条 一 条 地 添加 实例 。 每 次 添加 一 条 实例 后 ， 使 用 当前 贝 叶 斯 网 络 的 状 
态 对 下 一 条 实例 进行 分 类 。 

最 后 讲述 useProb 标志 ， 如 果 设 置 为 True， 使 用 估计 的 类 别 概率 ; 如 果 设 置 为 False， 
分 类 器 的 准确 性 使 用 0-1 损失 进行 估计 。 

4. 局 部 评分 量度 

通过 选择 weka.classifiers bayes.netsearch .local 包 下 的 任意 一 个 算法 ， 就 选择 了 基于 
部 计 分 的 结构 学 习 算法 ， 如 图 6.36 所 示 。 

基于 局 部 计 分 算法 具有 如 下 通用 选项 。 

(1) initAsNaiveBayes， 如 果 设 置 为 True( 默 认 值 )， 则 将 朴素 贝 叶 斯 网 络 结构 作为 开始 
遍历 搜索 空间 的 初始 网 络 结 构 。 也 就 是 说 ， 从 类 别 变量 到 每 个 属性 变量 都 有 箭头 的 结构 ; 
如 果 设 置 为 False， 则 使 用 空 的 网 络 结构 ， 即 没有 任何 箭头 。 
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(2) markovBlanketClassifier， 如 果 设 置 为 True， 在 遍历 搜索 空间 结束 时 ， 使 用 一 种 启 
发 式 校正 算法 以 确保 每 个 属性 都 位 于 分 类 器 节点 马尔 可 夫 毯 中 。 如 果 节 点 已 经 在 马尔 可 夫 
毯 中 ( 即 分 类 器 节点 的 父母 节点 、 兄 弟 节点 的 子 节点 )， 则 什么 也 不 发 生 ， 和 否则 会 添加 一 个 
箭头 ， 如 果 设 置 为 False( 默 认 值 )， 则 不 添加 箭头 。 

(3) scoreType， 确 定 使 用 的 计 分 度量 。 当 前 实现 了 BAYES 、K2、BDeu、AIC、 
ENTROPY 和 MDL 算法 。 

(4) maxNrOfParents， 为 学 习 到 的 网 络 结构 中 ， 每 个 节点 的 父 节点 数目 的 上 限 。 


6.1.5 查看 贝 叶 斯 网 络 

用 户 可 以 查看 在 探索 者 界面 中 学 习 到 的 贝 叶 斯 网 络 的 一 些 属性 ， 即 可 以 查看 其 文本 格 
式 ， 也 可 以 查看 其 图 形 格式 。 

1. 查看 文本 


在 Weka 探索 者 中 使 用 BayesNet 分 类 器 对 意 尾 花 数 据 进行 分 类 ， 使 用 分 类 器 的 默认 
选项 。 

最 开始 的 输出 是 BayesNet 学 习 方案 以 及 选项 ， 包 括 结构 学 习 器 和 分 布 估计 器 的 全 限定 
类 名 称 。 输 出 如 下 : 


=== Run information === 


Scheme: weka.classifiers.bayes.BayesNet -D -Q 
weka.classifiers.bayes.net.search.local.K2 -- -P 1 -S BAYES -E 
weka.classifiers.bayes.net .estimate.SimpleEstimator -- -A 0.5 


然后 输出 数据 集 的 基本 信息 ， 包 括 关 系 名 称 、 实 例 数量 、 属 性 信息 。 还 有 测试 模式 及 
分 类 模式 ， 以 及 是 否 使 用 ADTree 算法 。 


Relation: Lris 

Instances: 150 

Attributes: 5 
sepallength 
sepalwjidth 


petallength 
petalwidth 
class 
Test mode: 10-fold cross-validation 


=—= Classifier model (full training set) —= 


Bayes Network Classifier 
not using ADTree 


下 面 一 行列 出 该 分 类 器 进行 训练 的 属性 数目 和 类 别 变量 索引 。 
#attributes=5 #classindex=4 


随后 输出 的 列表 指定 网 络 结构 。 每 个 变量 后 面 紧 跟着 父 节点 的 列表 ， 因 此 petallength 
等 变量 的 父 节点 都 是 类 别 节点 ， 而 类 别 节 点 没有 父 节点 。 括 号 中 的 数字 是 该 变量 的 重 数 ， 
这 里 表示 高 尾 花 数据 集 有 三 个 类 别 变量 。 所 有 其 他 变量 都 通过 一 个 离散 化 过 滤器 二 元 化 。 
输出 如 下 : 

Network structure (nodes followed by parents) 

sepallength(3): class 

sepalwidth(3): class 

petallength(3): class 

petalwidth (3): class 

class(3): 

随后 的 行列 出 了 各 种 记分 方法 得 出 的 网 络 结构 的 对 数 得 分 。 


LogScore Bayes: -481.00632967833803 
LogScore BDeu: -525.3834868062277 
LogScore MDL: -536.5317339418378 
LogScore ENTROPY: -471.39347511858665 
LogScore AIC: -497.39347511858665 


如 果 指定 BIF 文件 ， 将 输出 类 似 于 如 下 两 行 信息 : 

Missing: 0 Extra: 2 Reversed: 0 

Divergence: -0.0719759699700729 

信息 展示 了 学 习 过 的 网 络 与 BIF 文件 中 的 网 络 结构 进行 比较 ，Missing( 缺 失 ) 后 的 数值 
表示 在 文件 的 网 络 中 存在 ， 但 经 过 结构 学 习 器 后 没有 恢复 的 连 线 数目 。 需 要 注意 的 是 ， 学 
习 后 反 向 的 连 线 不 能 算 做 缺失 。Extra( 额 外 ) 后 的 数值 是 经 过 学 习 的 网 络 中 新 增 的 ， 但 在 文 
件 的 网 络 中 没有 连 线 的 数目 。 反 向 的 连 线 数量 也 一 并 列 出 。 

本 例 中 ， 由 于 没有 指定 BIF 文件 ， 因 此 不 打印 上 述 信息 。 

输出 的 其 余部 分 是 所 有 分 类 器 的 标准 输出 ， 列 示 如 下 : 


Time taken to build model: 0.01 seconds 


一 =- Stratified cross-validation 一 一 
=== SMary === 


Correctly Classified Instances 139 92.6667 乞 


泗 同 注 引 eh9M 二 9 小 
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Incorrectly Classified Instances 11 7:3333. % 
Kappa statistic 0.89 
Mean absolute error 0.0454 


2. 查看 图 形 

要 显示 贝 叶 斯 网 络 的 图 形 结构 ， 在 探索 者 结果 列表 中 的 右 击 相应 的 BayesNet 条 目 ， 然 
后 在 弹出 菜单 中 选择 Visualize graph( 可 视 化 图 ) 菜 单项 。 会 弹出 一 个 Weka 分 类 器 图 形 可 视 
化 器 ， 自 动 布局 并 显示 贝 叶 斯 网 络 ， 如 图 6.37 所 示 。 


Ll Weka classiier Graph Visualizer 194203 - bayes BayesNet | 
四 Q&S | 


图 6.37 分 类 器 图 形 可 视 化 器 


当 用 户 将 鼠标 在 一 个 节点 悬 停 一 会 ， 该 节点 变 为 高 亮 ， 且 所 有 的 子 节点 也 都 高 亮 。 这 
样 ， 在 复杂 的 图 形 中 很 容易 辨别 节点 之 间 的 关系 。 

在 图 6.37 的 图 形 可 视 化 器 窗口 上 部 有 一 个 工具 栏 ， 一 共有 四 个 按钮 加 中 央 的 一 个 文本 
框 ， 下 面 从 左 到 右 说 明 每 个 按钮 的 功能 。 

第 一 个 按钮 是 保存 图 形 。 单 击 该 按钮 会 弹出 一 个 保存 文件 对 话 框 ， 人 允许 用 户 选择 文件 
名 和 文件 格式 。 可 以 选择 XML BIF 格式 或 DOT 格式 ， 将 贝 叶 斯 网 络 保存 为 文件 。 

第 二 、 三 两 个 按钮 与 图 形 放 大 有 关 。 两 个 按钮 分 别 用 于 放大 和 缩小 ， 两 个 按钮 中 间 有 
一 个 文本 框 ， 用 于 输入 所 需 的 缩放 比例 ， 输 入 百分比 后 按 Enter 键 ，Weka 按照 所 需 的 缩放 
水 平 重 绘图 形 。 

最 后 一 个 按钮 是 绘图 选项 。 单 击 该 按钮 可 以 显示 (或 隐藏 ) 用 于 控制 图 形 布局 设置 的 额 
外 选项 。 

额外 选项 从 上 至 下 如 图 6.38 所 示 。 

(1) Layout Type( 布 局 类 型 ) 确 定 放置 节点 所 使 用 的 算法 。 

(2) Layout Method( 布 局 方法 ) 确 定 放置 节点 考虑 的 方向 ， 是 自 上 而 下 还 是 自 下 而 上 。 

(3) Edge Concentration( 边 集中 度 ) 切 换 是 否 允许 部 分 合并 边 。 

(4) Custom Node Size( 自 定义 节点 大 小 ) 用 于 自 定义 节点 的 大 小 ， 而 非 自 动 确 定 。 

当 用 户 在 贝 叶 斯 网 络 中 单 击 一 个 节点 时 ， 会 弹出 一 个 窗口 ， 显 示 所 单 击 节点 的 概率 
表 ， 如 图 6.39 所 示 。 左 侧 显示 父 节点 属性 ， 并 列 出 父 节点 的 取 值 ， 右 侧 显示 满足 父 节点 值 
的 条 件 下 ， 所 单 击 节 点 的 概率 。 
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图 6.39 节点 的 概率 表 
因此 ， 图 形 可 视 化 工具 允许 用 户 检查 网 络 结构 和 概率 表 。 


6.1.6 手把手 教 你 


1. 使 用 贝 叶 斯 网 络 编辑 器 建 模 

本 示例 是 用 手工 创建 图 6.1 所 示 的 典型 贝 叶 斯 网 络 。 

首先 打开 贝 叶 斯 网 络 编辑 器 窗口 。 选 择 Edit| Add Node 菜单 项 打开 Add Node 对 话 
框 ， 将 节点 名 称 改 为 Cloudy， 保 持 重 数 为 2 不 变 (因为 只 有 二 元 )， 单 击 OK 按钮 确认 添加 


节点 ， 如 图 6.40 所 示 。 
然后 ， 在 绘图 面板 上 右 击 新 增 的 Cloudy 节点 ， 在 上 下 文 菜单 中 选择 Rename 


value| Valuel 菜单 项 ， 打 开 如 图 6.41 所 示 的 对 话 框 ， 将 值 名 称 改 为 了 ， 然 后 单 击 “ 确 定 ” 
按钮 结束 修改 。 用 同样 的 方法 ， 将 Value2 值 名 称 改 为 T。 


1 New name for value Valuel 
下 


Cne | ww | 
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图 6.40 添加 Cloudy 节点 图 6.41 修改 节点 值 名 称 
重复 以 上 步骤 ， 添 加 Sprinkler、Rain 和 WetGrass 节点 ， 拖 动 这 些 节点 到 合理 的 位 
置 ， 如 图 6.42 所 示 。 
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6.42 ”添加 四 个 节点 后 的 图 形 


6.42 的 Sprinkler 节点 没有 显示 出 全 名 ， 只 显示 了 一 个 “1”， 
无 法 显示 。 按 照 下 面 步骤 修改 : 选择 Tools|Layonut 菜单 


项 ， 打 开 如 图 6.43 所 示 的 对 话 框 ， 按 图 定制 节点 的 宽 和 
高 ， 修 改 完成 后 单 击 Layout Graph 按钮 关闭 对 话 框 。 

下 面 的 步骤 是 为 网 络 添加 有 向 边 。 右 击 Sprinkler 节 
点 ， 在 弹出 菜单 中 选择 Add parent | Cloudy 菜单 项 ， 添 加 
Cloudy 节点 到 Sprinkler 节点 的 有 向 边 。 按 照 同样 的 步骤 添 
加 Cloudy 节点 到 Rain 节点 的 有 向 边 、Sprinkler 节点 到 


WetGrass 节点 的 有 向 边 ， 以 及 Rain 节点 到 WetGrass 节点 
的 有 向 边 ， 并 适当 调整 节点 位 置 ， 完 成 以 后 的 网 络 结构 如 图 6.44 所 示 。 
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6.43 ”定制 节点 的 宽 和 高 
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6.44 网络 结构 


下 一 个 步骤 是 编辑 CPT 表 。 首 先 使 用 鼠标 右 击 Cloudy 节点 ， 在 弹出 的 菜单 中 选择 
Edit CPT 菜单 项 ， 弹 出 如 图 6.45 所 示 的 对 话 框 ， 由 于 Cloudy 节点 没有 父 节点 ， 因 此 其 
CPT 只 有 一 行 ， 其 重 数 为 2， 因 此 只 有 两 列 ， 且 CPT 表 不 需要 修改 ， 因 此 查看 后 直接 单 击 


Ok 按钮 关闭 窗口 。 


按照 同样 的 方式 ， 对 照 图 6.46 一 图 6.48， 分 别 编 辑 Sprinkler 节点 、Rain 节点 和 
WetGrass 节点 的 CPT。 


© Probability Distribution Tabl- 


P| 


6.45 ”Cloudy 节点 的 CPT 
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6.47 Rain 节点 的 CPT 6.48 WetGrass 节点 的 CPT 
到 目前 为 止 ， 已 经 构建 了 贝 叶 期 网络 的 结构 ， 并 且 编 辑 了 CPT 参数 表 。 为 了 将 来 能 够 
复 用 ， 将 网 络 保存 为 BIF XML 文件 。 选择 File | Save As 菜单 项 ， 在 弹出 的 保存 文件 对 话 
框 中 选择 保存 目录 ， 输 入 保存 文件 名 ， 选 择 文件 类 型 ， 如 图 6.49 所 示 ， 最 后 单 击 “ 保 在” 


图 6.49 保存 文件 


2. 使 用 贝 叶 斯 网 络 编辑 器 进行 推理 

如 果 贝 叶 斯 网 络 不 能 用 于 推理 ， 就 没有 什么 用 处 。 本 示例 使 用 上 一 个 示例 得 到 的 贝 叶 
斯 网 络 ， 验 证 前 文中 根据 贝 叶 斯 规则 得 到 的 后 验 概 率 。 

首先 运行 贝 叶 斯 网 络 编辑 器 窗口 ， 选 择 File | Load 菜单 项 ， 加 载 上 一 个 示例 得 到 的 贝 
叶 斯 网 络 一 一 wetgrass.xml 文件 。 然 后 ， 选 择 Tools | Show Margins 菜单 项 ， 可 以 看 到 ， 每 
个 节点 旁边 都 以 绿色 文字 显示 该 节点 的 边缘 概率 ， 如 图 6.50 所 示 。 

从 图 6.50 的 最 下 面 一 个 节点 可 以 看 到 ，WetGrass 变量 为 True 的 概率 为 0.6471， 和 前 
文 计算 得 到 的 P(W =]) 值 一 致 。 

为 了 得 到 P(S=1|W=1) 和 P(R=1|W=1)， 首 先 要 设置 条 件 7 本 1。 为 此 ， 用 鼠标 右 击 
WetGrass 节点 ， 选 择 Set evidence | 工 菜 单项 ， 这 时 ，WetGrass 节点 旁边 的 文字 变 成 红色 ， 
显示 当前 证 据 ( 草 湿 为 True)， 如 图 6.51 所 示 。 注 意 到 这 里 并 没有 显示 1， 而 是 显示 
0.9999， 这 可 能 是 由 于 Java 中 的 浮 点 数 类 型 float 和 double 表示 浮 点 数 存在 的 误差 问题 ， 
如 果 Weka 在 内 部 使 用 BigDecimal 类 型 可 能 可 以 避免 这 个 问题 。 
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6.50 ”显示 边缘 概率 


图 6.51 设置 证 据 


现在 来 看 Sprinkler 节点 ， 该 节点 的 第 二 行 显示 0.4297， 与 前 面 计 算得 到 的 结果 
P(S=1|W=1)=0.4298 稍 有 误差 ， Ran 节点 第 二 行 显 示 0.7079 ， 与 
P(R=1|WW=1)=0.7079 完全 一 致 。 可 见 ， 使 用 贝 叶 斯 网 络 进行 推理 ， 可 以 省 略 很 大 的 计算 
工作 量 ， 得 到 的 结果 仅 有 微小 的 可 以 忽略 的 误差 。 

顺便 提 一 下 ， 如 果 要 恢复 为 设置 证 据 前 的 状态 ， 选 择 Set evidence | Clear 菜单 项 即 可 。 


3. 使 用 贝 叶 斯 网 络 编辑 器 从 数据 集 学 习 


首先 启动 贝 叶 斯 网 络 编辑 器 窗口 ， 选 择 File |Load 菜单 项 ， 加 载 data 目录 下 的 
weather.nominal.arff 文件 。 这 时 ， 贝 叶 斯 网 络 编辑 器 应 该 显示 5 个 节点 ， 对 应 天 气 数据 集 
的 5 个 属性 ， 如 图 6.52 所 示 。 可 以 看 到 temperature 节点 只 显示 一 个 “1”， 按 照 前 文 所 述 
的 方法 定制 节点 的 宽 和 高 ， 可 以 使 节点 文字 都 能 显示 出 来 。 
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6.52 ”加 载 数据 集 后 的 网 络 
选择 Tools | Learn Network 菜单 项 ， 会 弹出 如 图 6.53 所 示 的 学 习 贝 叶 斯 网 络 对 话 框 。 


图 6.53 学 习 贝 叶 斯 网 络 对 话 框 


保持 默认 参数 不 变 ， 单 击 Learn 按钮 启动 学 习 。 完 成 网 络 结构 学 习 后 的 贝 叶 斯 网 络 如 
6.54 所 示 。 可 以 看 到 ， 由 于 类 别 属性 节点 都 有 且 只 有 一 个 箭头 指向 其 他 属性 节点 ， 再 没 
有 其 他 箭头 ， 因 此 图 6.54 就 是 一 个 朴素 贝 叶 斯 网 络 。 这 是 由 于 使 用 默认 参数 ， 
initAsNaiveBayes 选项 默认 设置 为 tue， 用 于 结构 学 习 的 初始 网 络 是 朴素 贝 叶 斯 网 络 。 如 果 
该 选项 设置 为 false， 初 始 的 网 络 结构 是 空 网 络 。 
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6.54 ”学 习 后 的 贝 叶 斯 网 络 


到 目前 为 止 ， 由 于 图 6.54 的 贝 叶 斯 网 络 是 直接 从 数据 集 经 网 络 结构 学 习 后 得 到 的 ， 并 
且 没 有 进行 任何 修改 操作 。 下 一 步 是 手动 学 习 参 数 ， 其 步骤 是 : 选择 Tools | Learn CPT 菜 


单项 。 学 习 CPT 参数 不 会 改变 贝 叶 斯 网 络 的 结构 ， 只 会 改变 概率 表 ， 另 外 ， 学 习 CPT 还 


会 清除 undo 栈 。 


现在 来 看 看 经 过 学 习 后 的 网 络 是 否 能 够 进行 推理 ， 假 设 现在 有 这 么 一 个 问题 ， 当 输入 
满足 outlook = sunny、temperature =cool、humidity = high， 且 windy = TRUE 时 ， 是 否 可 以 
play? 首先 选择 Tools | Show Margins 菜单 项 以 显示 节点 的 边缘 概率 。 然 后 ， 右 击 outlook 
节点 ， 选 择 Set evidence | sunny 菜单 项 ， 设 置 outlook 节点 的 当前 证 据 sunny， 按 照 同 样 的 
方法 ， 设 置 temperature、humidity 和 windy 节点 的 证 据 分 别 为 cool、high 和 TRUE。 如 


图 6.55 所 示 。 
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图 6.55 使 用 网 络 进行 推理 
从 图 中 可 以 看 到 ，play 为 yes 的 概率 为 0.2359， 为 no 的 概率 为 0.7640， 因 此 不 可 玩 。 
读者 可 使 用 联合 概率 的 计算 公式 自行 验证 上 述 结果 。 


站 
择 Tools | Learn Network 菜单 项 ， 会 弹出 如 图 6.53 所 示 学 习 贝 叶 斯 网 络 对 话 框 。 单 


二 | 


面 的 网 络 是 使 用 结构 学 习 而 得 到 的 ， 通 过 改变 参数 ， 可 以 得 到 不 同 的 网 络 。 再 次 选 
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图 6.53 中 的 Options 按钮 ， 弹 出 如 图 6.56 所 示 的 通用 对 象 编辑 器 对 话 框 。 其 中 ， 窗 口上 部 
的 Choose 按钮 可 以 选择 不 同 的 贝 叶 斯 网 络 算法 ， 下 部 可 以 设置 贝 叶 斯 网 络 算法 的 选项 。 
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图 6.56 通用 对 象 编辑 器 


单 击 searchAlgorithm 选项 旁 的 Choose 按钮 可 选择 搜索 算法 ， 本 例 还 是 使 用 K2 算 


法 ， 单 击 显示 K2 及 参数 的 文本 框 ， 在 弹出 窗口 中 将 maxNrOfParents 由 默认 的 1 设置 为 
3， 如 图 6.57 所 示 。 
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图 6.57 设置 参数 


单 击 两 次 OK 按钮 回 到 如 图 6.53 所 示 学 习 贝 叶 斯 网 络 对 话 框 。 再 次 单 击 Leam 按钮 ， 


新 的 贝 叶 斯 网 络 如 图 6.58 所 示 ， 可 见 ， 由 于 将 maxNrOfParents 参数 设置 为 3，windy 节点 
的 父 节 点 变 为 三 个 。 
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图 6.58 新 的 贝 叶 斯 网 络 
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如 果 对 学 习 到 的 网 络 结构 不 满意 ， 可 以 用 手工 修改 ， 修 改 完成 后 ， 最 好 再 次 学 习 
CPT。 


4. 使 用 朴素 贝 叶 斯 网 络 

朴素 贝 叶 斯 网 络 是 最 为 简单 的 贝 叶 斯 网 络 。 如 下 实验 使 用 NaiveBayes 分 类 器 对 天 气 数 
据 集 进行 训练 ， 最 后 评估 分 类 模型 的 性 能 。 

首先 ， 运 行 Weka 探索 者 界面 ， 在 预 处 理 面板 中 单 击 Open file 按钮 ， 然 后 选择 data 目 
录 下 的 weather.numeric.arff 文件 。 该 数据 集 的 类 别 属性 是 标 称 属 性 ， 而 四 个 属性 中 有 两 个 
属性 为 标 称 型 ， 另 外 两 个 为 数值 型 ， 不 过 不 用 担心 ，NaiveBayes 会 使 用 有 监督 的 离散 化 来 
处 理 数值 型 属性 。 

然后 ， 单 击 Classify 标签 页 切换 至 分 类 面板 ， 单 击 Classifier 子 面 板 下 的 Choose 按钮 
选择 NaiveBayes 分 类 器 ， 保 持 默认 的 十 折 交 叉 验 证 测试 选项 ， 单 击 Start 按钮 启动 训练 和 
模型 评估 ， 运 行 结果 如 图 6.59 所 示 。 


二 = 


图 6.59 NaiveBayes 分 类 器 运行 结果 


可 以 看 到 ， 在 输出 表格 中 显示 了 NaiveBayes 分 类 模型 的 参数 ， 第 一 列 显 示 属 性 ， 另 外 
两 列 显示 类 别 值 。 表 格 中 的 单元 格 显示 标 称 属性 的 频 度 计数 或 数值 属性 的 正 态 分 布 参数 。 
例如 ， 图 6.59 中 显示 类 别 值 为 yes 实例 的 temperature 均值 为 72.9697， 而 类 别 值 为 yes 实 
例 的 outlook 的 值 为 sunny、overcast 和 rainy 分 别 出 现 3.0、5.0 和 4.0 次 。 细 心 的 读者 注意 
到 outlook 的 三 个 属性 值 出 现 次 数 全 部 之 和 为 20， 大 于 天 气 数 据 集中 实例 的 总 数 14。 这 种 
情况 出 现 的 原因 是 ，NaiveBayes 避免 出 现 为 0 的 频 度 值 ， 而 使 用 了 拉 普 拉 斯 校正 ， 它 将 每 
一 个 频 度 计数 初始 化 为 1 而 不 是 0。 

除了 NaiveBayes 分 类 器 之 外 ， 还 有 多 种 贝 叶 斯 分 类 器 可 用 。 了 解 在 什么 情况 下 该 使 用 
哪 一 种 贝 叶 斯 分 类 器 是 贝 叶 斯 算法 爱好 者 的 必修 课 ， 这 里 留 作 习 题 。 

5. 定制 网 络 结构 的 贝 叶 斯 网 络 

本 示例 展示 如 何 混合 使 用 贝 叶 斯 网 络 编辑 器 和 探索 者 界面 ， 在 机 器 学 习 加 入 一 些 人 类 


思维 ， 更 好 地 结合 人 类 智能 。 
首先 ， 运 行 Weka GUI Chooser 界面 ， 在 菜单 中 选择 Tools | Bayes net editor 菜单 项 启动 


贝 叶 斯 网 络 编辑 器 。 
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然后 ， 在 贝 叶 斯 网 络 编辑 器 中 ， 选 择 File | Load 菜单 项 加 载 data 目录 下 的 iris.arff 文 
件 ， 加 载 数据 集 后 的 贝 叶 斯 网 络 编辑 器 如 图 6.60 所 示 。 
Om 
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6.60 ”加 载 数据 集 后 的 贝 叶 斯 网 络 编辑 器 


注意 到 只 有 class 节点 可 以 看 清 节点 里 的 文字 ， 选 择 File | Layout 菜单 项 ， 在 弹出 的 
Graph Layout Options 对 话 框 中 ， 先 选中 Custom Node Size 复 选 框 ， 然 后 将 Width 选项 设置 
为 80， 最 后 单 击 Layout Graph 按钮 关闭 对 话 框 ， 得 到 的 结果 如 图 6.61 所 示 。 


图 6.61 调整 布局 后 的 网 络 节点 


选择 Tools | Learn Network 菜单 项 ， 在 弹出 的 如 图 6.62 所 示 的 Learn Bayesian Network 
对 话 框 中 ， 单 击 Leam 按钮 ， 得 到 如 图 6.63 所 示 的 贝 叶 斯 网 络 。 


Ee 
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图 6.62 学 习 贝 叶 斯 网 络 对 话 框 图 6.63 学 习 得 到 的 网 络 结构 


通过 选择 File | Save 菜单 项 ， 打 开 Save Graph As 对 话 框 ， 导 航 至 data 目录 ， 在 “ 文 
件 名 ”文本 框 中 输入 “lenses1”， 然 后 单 击 “ 保 存 ” 按 钮 进行 保存 。 


> 


保存 [和 dee | 个 局 国 - 


6.64 ”保存 网 络 


下 一 步 是 使 用 探索 者 界面 。 记 住 不 要 关闭 贝 叶 斯 网 络 编辑 器 窗口 ， 因 为 马上 就 要 使 用 。 
运行 探索 者 界面 ， 在 预 处 理 面板 中 单 击 Open file 按钮 打开 contact-lenses.arff 文件 ， 单 


@« 


击 Classify 标签 页 切换 至 分 类 面板 ， 单 击 Classifier 子 面板 下 的 Choose 按钮 ， 选 择 
BayesNet 分 类 器 ， 单 击 Choose 按钮 右面 的 输入 框 ， 弹 出 配置 BayesNet 选项 的 通用 对 象 编 
辑 器 对 话 框 。 单 击 Search Algorithm 提示 后 面 的 Choose 按钮 ， 选 择 weka.classifiers.bayes. 
net.search .fixed 包 下 的 FromFile， 如 图 6.65 所 示 。 
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图 6.65 ”BayesNet 选项 
单 击 Search Algorithm 提示 后 面 的 输入 框 ， 在 弹出 的 通用 对 象 编辑 器 对 话 框 中 ， 在 
BIFFile 提示 后 面 的 输入 框 中 输入 “C:\Weka-3-7\data\lenses1.xml”， 加 载 上 一 步 保存 的 BE 
文件 ， 如 图 6.66 所 示 。 连 续 两 次 单 击 OK 按钮 关闭 两 个 通用 对 象 编辑 器 对 话 框 。 
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图 6.66 加 载 BIFFile 


现在 回 到 探索 者 分 类 面板 ， 使 用 默认 的 十 折 交 叉 验 证 策略 ， 单 击 Start 按钮 启动 训练 和 
模型 评估 ， 结 果 如 图 6.67 所 示 。 


6.67 评估 结果 (1) 
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现在 尝试 更 改 贝 叶 斯 网 络 结构 ， 可 以 在 此 时 加 入 人 类 的 领域 知识 。 

切换 至 贝 叶 斯 网 络 编辑 器 窗口 ， 右 击 sepalwidth 节点 ， 在 上 下 文 菜单 中 选择 Add 
parent | petalwidth 菜单 项 ， 然 后 选择 Tools |Layonut 菜单 项 ， 得 到 的 网 络 结构 如 图 6.68 
所 示 。 
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图 6.68 更 改 网 络 结构 


选择 File | Save As 菜单 项 ， 将 更 改 后 的 网 络 保存 为 XML BIF 格式 的 lenses2.xml 文 
件 ， 如 图 6.69 所 示 ， 单 击 “ 保 存 ” 按 钮 保存 。 
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图 6.69 保存 更 改 后 的 网 络 


到 探索 者 界面 ， 单 击 Classifier 子 面板 下 的 输入 框 ， 在 弹出 的 通用 对 象 编辑 器 对 话 框 
中 ， 单 击 Search Algorithm 提示 后 面 的 输入 框 ， 在 弹出 的 通用 对 象 编辑 器 对 话 框 中 ， 在 
BIFFile 提示 后 面 的 输入 框 中 ， 将 lensesl.xml 更 改 为 lenses2.xml， 加 载 更 改 网 络 后 的 BF 
文件 ， 如 图 6.70 所 示 。 连 续 两 次 单 击 OK 按钮 关闭 两 个 通用 对 象 编辑 器 对 话 框 ， 回 到 探索 
者 界面 。 
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图 6.70 “加载 更 改 后 的 BIF 文件 
再 次 单 击 探索 者 分 类 面板 下 的 Start 按钮 ， 启 动 训练 和 模型 评估 ， 评 估 结 果 如 图 6.71 


对 照 图 6.67 和 图 6.71 容易 得 出 如 下 结论 : 优化 贝 叶 斯 网 络 结构 后 ， 分 类 准确 率 由 原 
来 的 92.6667% 提 高 至 94.6667%， 效 果 令 人 满意 。 


图 6.71 评估 结果 (2) 
6.2 神经 网 络 


神经 网 络 (Neural Network，NN) 是 人 工 神经 网 络 (Artificial Neural Network，ANN) 的 简 
称 ， 它 是 一 种 模仿 生物 神经 网 络 结构 和 功能 的 数学 模型 或 计算 模型 。 神 经 网 络 由 大 量 的 节 
点 (或 称 “ 神 经 元 ”或 “单元 ”) 和 节点 之 间 相 互 连 接 而 构成 ， 每 个 节点 代表 一 种 特定 的 输 
出 函数 ， 称 为 激励 函数 。 每 两 个 节点 间 的 连接 都 代表 一 个 对 于 通过 该 连接 信号 的 加 权 值 ， 
称 之 为 权重 ， 这 相当 于 人 工 神 经 网 络 的 记忆 。 网 络 的 连接 方式 、 权 重 值 和 激励 函数 决定 了 
网 络 的 输出 。 

BP(Back Propagation， 反 向 传播 ) 神 经 网 络 是 误差 反 向 传播 神经 网 络 的 简称 ， 由 一 个 输 
入 层 、 一 个 隐 含 屋 和 一 个 输出 层 构成 。Weka 神经 网 络 使 用 多 层 感 知 器 (MultilayerPerceptron) 
实现 了 BP 神经 网 络 ， 是 一 个 使 用 反 向 传播 的 分 类 器 ， 其 全 限定 名 为 
Weka.classifiers.functions.MultilayerPerceptron。 用 户 既 可 以 手工 构建 这 个 网 络 ， 也 可 以 使 用 
算法 构建 ， 或 两 者 兼备 。 在 训练 过 程 中 ， 可 以 对 该 网 络 进行 监视 和 修改 。 

尽管 归属 于 weka.classifiers.functions 包 ，MultilayerPerceptron 分 类 器 有 自己 的 图 形 用 
户 界面 ， 因 此 不 同 于 其 他 的 学 习 方案 。 


6.2.1 GUI 使 用 


首先 ， 在 Weka 探索 者 界面 中 加 载 weather.numeric.arff 数据 集 ， 切 换 至 分 类 面板 ， 选 
择 使 用 MultilayerPerceptron 分 类 器 。 单 击 Classifier 子 面板 下 Choose 按钮 右边 的 文本 框 ， 
在 打开 的 通用 对 象 编辑 器 中 设置 所 选 分 类 器 的 选项 。 在 这 里 只 需 将 GUI 选项 设置 为 True， 
保持 其 他 选项 不 变 ， 如 图 6.72 所 示 。 然 后 ， 单 击 OK 按钮 关闭 对 话 框 。 

这 里 将 GUI 选项 设置 为 True， 能 使 Weka 弹出 一 个 GUI 界面 ， 允 许 用 户 在 神经 网 络 
训练 过 程 中 暂停 和 修改 。 其 余 选项 的 具体 描述 可 参见 本 书 附 录 。 

在 分 类 面板 中 单 击 Start 按钮 启动 神经 网 络 学 习 ，Weka 会 自动 弹出 一 个 显示 神经 网 络 
框图 的 窗口 ， 如 图 6.73 所 示 。 窗 口 分 上 下 两 个 部 分 ， 上 部 区 域 显示 神经 网 络 的 结构 框图 ， 
下 部 区 域 可 以 设置 一 些 参 数 以 及 控制 神经 网 络 的 运行 。 
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6.72 设置 GUI 选项 


图 6.73 显示 的 网 络 分 为 三 层 : 左边 为 输入 层 ， 每 个 属性 对 应 一 个 绿色 的 矩形 框 ， 输 入 
层 旁 边 的 红色 节点 是 隐藏 层 ， 所 有 的 输入 节点 都 和 隐藏 层 相 连接 ;右边 的 橙色 节点 是 输出 
层 。 最 右边 的 橙色 标签 显示 输出 节点 所 代表 的 类 别 。 数 值 类 别 的 输出 节点 会 自动 转换 为 
unthresholded 的 线性 单位 。 


图 6.73 神经 网 络 窗口 


在 单 击 Start 按钮 运行 网 络 之 前 ， 可 以 添加 一 些 节 点 和 连接 以 更 改 网 络 结构 。 可 以 选 定 
节点 或 取消 选 定 节 点 ， 可 以 由 节点 中 心 的 颜色 来 区 分 节点 现在 到 底 处 于 选 定 状态 还 是 取消 
选 定 状态 ， 亮 黄色 表示 处 于 选 定 状态 ， 灰 色 表 示 处 于 取消 选 定 状态 。 如 果 要 选择 一 个 节 
点 ， 只 要 单 击 该 节点 既 可 ; 如 果 要 取消 选 定 节点 ， 只 需 右 击 空白 处 既 可 。 要 添加 节点 ， 首 
先 要 确保 没有 选 定 任何 节点 ， 然 后 在 面板 内 单 击 ， 就 会 在 单 击 位 置 产生 一 个 新 节点 ， 且 新 
节点 自动 变 为 选 定 状态 。 

如 果 要 连接 两 个 节点 ， 先 选 定 起 始 节 点 ， 然 后 单 击 结束 节点 。 如 果 在 单 击 结束 节点 之 
前 已 经 选 定 了 多 个 起 始 节点 ， 则 这 些 节点 都 会 连接 到 结束 节点 ; 如 果 单 击 的 不 是 结束 节点 
而 是 空白 位 置 ， 则 创建 一 个 新 节点 作为 结束 节点 。 连 接 节点 后 ， 起 始 节点 还 保持 为 选 定 状 
态 ， 这 样 ， 用 户 可 以 只 用 很 少 几 次 单 击 就 能 添加 全 部 的 隐藏 层 。 特 别 要 注意 的 是 ， 尽 管 没 


有 在 网 络 中 显示 出 来 ， 节 点 间 的 连接 都 是 有 向 的 。 

如 果 要 删除 某 个 节点 ， 先 确保 没有 任何 节点 处 于 选 定 状态 ， 然 后 用 鼠标 右 击 该 节点 。 
删除 节点 也 会 自动 删除 所 有 与 该 节点 相连 的 连接 。 要 删除 单个 连接 ， 选 择 一 个 节点 (不 论 是 
起 始 节点 还 是 结束 节点 )， 然 后 用 鼠标 右 击 另 一 个 相连 节点 既 可 。 

配置 好 网 络 结构 的 同时 ， 还 可 以 控制 leaming rate( 学 习 速 率 )、momentum( 动 量 )， 以 及 
遍历 数据 的 趟 数 ， 称 为 epochs( 迭 代 趟 数 )。 单 击 Start 按钮 启动 网 络 训练 ， 并 在 左下 方 的 面 
板 中 显示 epoch 正在 运行 的 指示 以 及 epoch 的 错误 。 请 注意 ， 该 错误 随 计算 值 后 网 络 的 变 
化 而 变化 。 对 于 数值 型 类 别 ， 错 误 值 取决 于 类 别 是 否 规范 化 。 当 达到 指定 数量 的 epochs 
时 ， 网 络 训练 停止 ， 此 时 ， 可 以 单 击 accept( 接 受 ) 按 钮 接受 结果 ， 也 可 以 按照 期 望 增 大 
epochs 的 值 ， 并 再 次 单 击 Start 按钮 继续 训练 。 

MultilayerPerceptron 分 类 器 不 一 定 非 要 通过 图 形 界面 才能 运行 ， 可 以 直接 在 通用 对 象 
编辑 器 中 设置 几 个 参数 ， 以 控制 其 操作 。 如 果 用 户 使 用 图 形 界面 ， 可 以 控制 初始 的 网 络 结 
构 ， 然 后 通过 交互 修改 结构 。 如 果 将 autoBuild 参数 设置 为 Trme， 会 添加 隐藏 层 并 进行 连 
接 ， 默 认 只 有 如 图 6.73 所 示 的 一 个 隐藏 层 。 但 是 ， 如 果 不 设置 autoBuild 参数 ， 隐 藏 层 将 
不 会 出 现 ， 且 不 会 连接 。hiddenLayers 参数 定义 哪些 隐藏 层 出 现 以 及 每 一 个 隐藏 层 包 含 多 
少 个 节点 。 图 6.73 由 值 4( 一 个 隐藏 层 包含 四 个 节点 ) 产 生 的， 虽然 可 以 通过 交互 方式 添加 
节点 ， 也 可 以 通过 改变 hiddenLayers 参数 的 值 来 达到 同样 的 目的 。 该 参数 值 是 一 个 逗号 分 
隔 的 整数 列表 ， 为 0 时 表示 没有 隐藏 层 ， 为 “4,5” 时 则 表示 第 一 个 隐藏 层 包含 四 个 节点 ， 
而 另 一 个 隐藏 层 包含 五 个 节点 。 参 数值 除了 可 以 使 用 整数 外 ， 还 可 以 使 用 如 下 预定 义 的 
值 ，“i” 为 属性 的 数量 ，“o” 为 类 别 值 的 数量 ，“a” 为 “i” 和 “o” 两 者 的 平均 值 ， 
“t” 为 两 者 的 和 ， 默 认 值 为 “a”。 

参数 leamingRate 和 momentum 为 这 些 变量 设置 值 ， 可 以 在 图 形 界面 改 设 这 些 变量 。 
decay( 衰 变 ) 参 数 使 学 习 率 随时 间 递 减 : 将 初始 值 除 以 epoch 数值 ， 以 获取 当前 的 学 习 率 。 
有 时 会 提高 性 能 ， 并 可 能 会 使 网 络 停止 发 散 。reset( 复 位 ) 参 数 自动 将 网 络 复位 为 较 低 的 学 
习 率 ， 并 在 偏离 答案 时 重新 启动 训练 ， 此 选项 仅 在 不 使 用 图 形 界面 时 才 可 用 。 

trainingTime 参数 设置 训练 epochs 的 次 数 ， 要 不 然 也 可 以 使 用 validationSetSize 参数 预 
留 一 定 百分比 的 数据 进行 验证 ， 然 后 继续 训练 ， 直 到 验证 集 的 性 能 开始 持续 恶化 ， 或 者 达 
到 指定 数量 的 epochs 值 。 如 果 设 置 百分比 为 0， 则 不 使 用 验证 集 。validationThreshold 参数 
确定 在 训练 停止 前 ， 允 许 有 多 少 次 验证 集 性 能 恶化 错误 。 

MultilayerPerceptron 对 象 编辑 器 默认 指定 使 用 NominalToBinaryFilter 过 滤器 ， 如 果 数 
据 中 的 标 称 属 性 实际 上 就 是 序数 类 型 ， 关 闭 该 选项 可 以 提高 性 能 。 可 以 使 用 
normalizeAttributes 选项 将 属性 规范 化 。 此 外 ， 可 以 使 用 normalizeNumericClass 选项 将 数值 
型 的 类 别 属性 规范 化 。 这 两 个 选项 可 以 提高 性 能 ， 这 些 选项 默认 是 打开 的 。 


6.2.2 手把手 教 你 用 


1. 图 形 界面 编辑 操作 


首先 启动 探索 者 界面 ， 在 预 处 理 面板 中 单 击 Open file 按钮 ， 打 开标 准 的 打开 文件 窗 
口 ， 导 航 至 Weka 安装 目录 下 的 data 目录 ， 选 择 加 载 weather.numeric.arff 数据 文件 。 
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然后 切换 至 分 类 面板 ， 选 择 functions 条 目下 的 MultilayerPerceptron 分 类 器 ， 单 击 
Choose 按钮 右边 的 文本 栏 以 打开 通用 对 象 编辑 器 窗口 ， 将 GUI 参数 值 设 置 为 True， 如 
图 6.72 所 示 。 由 于 只 是 实验 ， 因 此 选择 的 测试 选项 为 Use training set。 单 击 Start 按钮 启动 
网 络 学 习 ， 这 时 会 自动 弹出 如 图 6.73 所 示 的 神经 网 络 框图 窗口 。 

可 以 看 到 ， 现 在 的 神经 网 络 只 有 一 个 包含 四 个 节点 的 隐藏 层 ， 这 里 的 操作 目标 是 通过 
对 框图 面板 的 手工 编辑 ， 再 添加 一 个 包含 五 个 节点 的 隐藏 层 。 手 工 编辑 一 共 分 为 如 下 三 步 。 

第 一 步 ， 删 除 隐藏 层 到 输出 层 的 连接 。 有 具体 步骤 是 : 选中 最 上 面 的 隐藏 节点 ， 可 以 看 
到 选中 节点 的 中 心 颜色 由 灰色 变 为 亮 黄色 ， 然 后 再 用 鼠标 右 击 最 上 面 的 输出 节点 ， 删 除 两 
个 节点 间 的 连接 线 ， 用 鼠标 右 击 另 一 个 输出 节点 ， 这 样 就 删除 了 第 一 个 隐藏 节点 到 两 个 输 
出 节点 的 连接 。 当 然 ， 这 样 做 的 效率 非常 低 ， 下 面 尝试 高 效 的 操作 。 在 框图 面板 的 空白 处 
单 击 鼠 标 右键 ， 以 取消 节点 的 选中 状态 。 然 后 单 击 以 选中 第 二 个 隐藏 节点 ， 按 下 Ctrl 键 的 
同时 依次 单 击 第 三 个 隐藏 节点 和 第 四 个 隐藏 节点 ， 确 保 第 二 、 三 、 四 个 隐藏 节点 的 中 心 全 
部 变 为 亮 黄 色 ， 然 后 放 开 Ctrl 键 ， 依 次 用 鼠标 右 击 两 个 输出 节点 。 这 样 就 删除 了 从 隐藏 
节点 到 输出 节点 的 全 部 连接 ， 如 图 6.74 所 示 。 最 后 ， 在 面板 空白 处 右 击 取消 节点 的 选中 
状态 。 

第 二 步 ， 添 加 包含 五 个 节点 的 隐藏 层 并 进行 连接 。 有 具体 步骤 是 : 按照 第 一 步 的 方法 ， 
选中 第 一 个 隐藏 层 的 全 部 四 个 节点 。 然 后 ， 在 希望 的 位 置 单 击 ， 可 以 看 到 创建 一 个 新 节点 
且 新 节点 已 经 是 四 个 节点 连接 的 结束 节点 。 重 复 单 击 四 次 鼠标 后 ， 完 成 的 网 络 如 图 6.75 所 示 。 
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6.74 ”删除 隐藏 节点 到 输出 节点 的 全 部 连接 6.75 ”添加 五 个 节点 并 连接 


第 三 步 ， 将 第 二 个 隐藏 层 的 五 个 节点 与 输出 节点 进行 连接 。 有 具体 步骤 是 : 首先 ， 在 面 
板 空白 处 右 击 取消 节点 选中 状态 。 然 后 ， 按 照 第 一 步 的 方法 选中 五 个 节点 ， 用 鼠标 依次 单 
击 两 个 输出 节点 ， 完 成 以 后 的 网 络 如 图 6.76 所 示 。 

完成 后 ， 可 以 单 击 Start 按钮 开始 训练 ， 训 练 完成 后 ， 可 以 参考 Error per Epoch 指标 ， 
如 果 对 效果 满意 ， 单 击 Accept 按钮 接受 修改 好 的 网 络 模型 。 

当然 ， 上 述 使 用 交互 式 的 图 形 方 式 虽然 直观 ， 但 还 是 有 些 麻 烦 。 通 过 设置 参数 的 方式 
可 以 一 步 达 到 上 述 目标 。 打 开通 用 对 象 编辑 器 ， 设 置 MultilayerPerceptron 分 类 器 的 
hiddenLayers 参数 ， 将 该 参数 的 默认 值 由 “a” 修 改 为 “a, 4”， 保 持 其 他 参数 不 变 。 再 次 
启动 网 络 学 习 ， 可 以 看 到 ， 自 动弹 出 的 神经 网 络 框图 窗口 类 似 于 手工 编辑 的 图 6.76。 


6.76 ”完成 以 后 的 网 络 


2. 调整 参数 


首先 ， 使 用 探索 者 界面 ， 从 Weka 安装 目录 下 的 data 目录 加 载 ionosphere.arff 文件 ， 
切换 至 分 类 面板 ， 选 中 MultilayerPerceptron 分 类 器 ， 保 持 其 默认 参数 ， 保 持 测试 选项 为 十 
折 交 叉 验证 ， 单 击 Start 按钮 启动 训练 及 评估 。 完 成 后 Weka 会 在 分 类 器 输出 区 域 输出 训练 
和 评估 结果 。 限 于 篇 幅 ， 下 面 分 别 对 主要 部 分 的 输出 进行 说 明 。 

首先 输出 的 部 分 如 下 所 示 。 主 要 显示 各 神经 元 的 一 些 权重 (weighb 和 浆 值 (threshold) 。 
可 以 看 到 ， 这 里 对 应 的 是 神经 网 络 的 输出 节点 ， 其 weight 分 布 对 应 隐藏 层 节点 的 权重 。 


Test mode: 10-fold cross-validation 


一 = Classifier model (full training set) —= 


Sigmoid Node 0 
Inputs Weights 
Threshold 2.0598834379035815 
Node 2 2.0762333593948368 
Node 3 3.218355917055771 
Node 4 -0.7017532303075442 
Node 5 -1.9582756904962273 


Node 19 4.045989528132263 


然后 显示 输入 节点 的 权重 ， 输 出 如 下 : 


Sigmoid Node 2 
Inputs Weights 
Threshold -0.18027927909992864 
Attrib a01 -0.9694519022960784 
Attrib a02 0.016992161115539056 
Attrib a03 -0.8999129576661243 
Attrib a04 -0.07380171922934223 
Attrib a05 0.14193458784697677 


Attrib a34 1.1459036574648713 
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最 后 一 部 分 显示 各 个 评估 指标 ， 可 以 看 到 正确 分 类 的 实例 已 经 超过 90%， 分 类 效果 还 
是 不 错 的 。 输 出 如 下 : 


= Stratified cross-validation 一 一 


=—= Summary =— 

Correctly Classified Instances 320 91.1681 多 
Incorrectly Classified Instances 31 8.8319 $ 
Kappa statistic 0.7993 

Mean absolute error 0.0938 

Root mean squared error 0.2786 

Relative absolute error 20.3738 $% 

Root relative squared error 58.0756 $ 

Coverage of cases (0.95 level) 94.302 $ 

Mean rel. region size (0.95 level) 54.9858 多 

Total Number of Instances 351 


调整 参数 是 个 很 繁杂 很 费时 间 的 工作 。MultilayerPerceptron 分 类 器 的 参数 很 多 ， 对 于 
不 同 数据 集 ， 要 将 参数 调整 到 一 个 可 接受 的 范围 内 是 一 件 不 容易 的 事 。 本 例 仅 对 Epoch、 
Momentum、Learning Rate 和 网 络 结构 进行 调整 ， 测 试 调整 参数 对 性 能 的 影响 。 

Epoch 参数 是 训练 的 迭代 次 数 ， 显 然 ，Epoch 参数 参数 值 越 大 ， 训 练 花费 的 时 间 越 
多 。 默 认 的 Epoch 参数 值 为 500， 分 别 将 其 修改 为 200 和 1000， 启 动 训 练 和 评估 ， 得 到 如 
表 6.1 所 示 的 评估 数据 。 


表 6.1 修改 Epoch 参数 值得 到 的 结果 


och 参数 值 “| 。 构建 模型 时 间 ( 秒 正确 分 类 的 实例 (% 均 方 根 误差 (RMSE 
90.8832 


911681 
911681 


可 以 看 到 ， 构 建 模型 的 时 间 与 Epoch 参数 值 成 正比 例 ， 当 重复 迭代 训练 一 定 次 数 后 ， 
正确 分 类 实例 的 比例 并 不 一 定 会 提升 ， 有 时 候 ， 反 而 会 造成 过 度 拟 合 。 请 注意 ， 由 于 读者 
的 计算 机 与 本 次 实验 的 计算 机 存在 速度 的 不 同 ， 并 且 实际 运算 中 随机 划分 测试 集 和 测试 集 
使 得 选取 的 结果 可 能 会 存在 差异 ， 因 此 ， 如 果 读 者 得 到 同 表 6.1 不 太一 致 的 数据 ， 也 不 必 
惊奇 ， 只 要 大 趋势 没有 实质 性 变化 就 可 以 了 。 下 面 的 测试 道理 也 相同 ， 不 再 獒 述 。 

Momentum 参数 用 于 增加 波动 的 阻尼 。 如 果 认 为 训练 沿 着 最 优 的 “谷底 ”来 回 反 弹 ， 
增 大 Momentum 参数 会 有 一 定 帮助 。 但 是 ， 如 果 Momentum 参数 值 太 大 ， 其 结果 可 能 会 绕 
着 “谷底 ”转圈 ， 而 不 是 螺旋 式 使 误差 越 来 越 小 。 因 为 无 法 看 到 实际 的 拟 合 表面 ， 只 能 通 
过 试 错 法 来 调整 Momentum 参数 。 

下 面 先 恢复 MultilayerPerceptron 分 类 器 的 全 部 参数 为 默认 值 ， 然 后 再 修改 Momentum 
参数 ， 启 动 训练 和 评估 ， 得 到 如 表 6.2 所 示 的 评估 数据 。 

可 以 看 到 ， 就 本 例 而 言 ， 修 改 Momentum 参数 对 评估 的 影响 有 限 。 


表 6.2 修改 Momentum 参数 值得 到 的 结果 


正确 分 类 的 实例 (%) 均 方 根 误差 (RMSE) 
91.7379 0.271 
91.1681 0.2786 
91.453 | 0.2797 


91.453 


构建 模型 时 间 ( 秒 ) 
3.86 


Momentum 参数 值 
0.1 
0.2 
0.4 3.81 


Learning Rate 参数 控制 学 习 速 率 ， 它 决定 在 每 一 个 Epoch 跳跃 有 多 长 距离 。 如 果 该 值 
很 小 ， 改 变 网 络 权 重 的 过 程 就 需要 很 长 ;但 如 果 该 值 过 大 ， 可 能 直接 跳 过 并 错过 最 优 地 
点 ， 到 达 另 一 个 地 方 。 想 象 一 下 如 下 场景 ， 假 如 你 穿越 高 山 ， 尝 试 找到 的 谷底 溪流 。 你 会 


观察 一 下 四 周 的 局 部 坡度 ， 面 对 下 坡 的 方向 闭 上 了 眼睛， 走路 的 步 幅 与 学 习 速度 成 正比 。 如 
果 步 幅 迈 得 过 大 ， 可 能 会 跨 过 小 溪 而 不 自觉 ， 从 而 到 达 对 面 的 斜坡 。 下 一 次 也 可 能 只 是 重 
复 刚 才 的 错误 ， 因 步 幅 太 大 而 无 法 找到 最 优 位 置 。 因 此 只 能 通过 试 错 法 进行 调整 。 

下 面 先 恢复 MultilayerPerceptron 分 类 器 的 全 部 参数 为 默认 值 ， 然 后 再 修改 Learning 
Rate 参数 ， 启 动 训练 和 评估 ， 得 到 如 表 6.3 所 示 的 评估 数据 。 


表 6.3 修改 Learning Rate 参数 值得 到 的 结果 
Learning Rate 参数 值 构建 模型 时 间 ( 秒 ) 正确 分 类 的 实例 (%) 均 方 根 误差 (RMSE) 


0.1 3.77 0.2838 
03 3.83 0.2786 
0.6 3.78 0.2837 
1.0 3.81 0.2824 


可 以 看 到 ， 就 本 例 而 言 ， 修 改 Learning Rate 参数 对 评估 有 一 定 的 影响 ， 当 该 参数 过 大 
时 ， 由 于 较 难 找到 适合 的 权重 和 阔 值 ， 因 而 影响 正确 分 类 实例 所 占 的 比例 。 

最 后 ， 测 试 改变 网 络 结构 对 评估 的 影响 。 先 恢复 MultilayerPerceptron 分 类 器 的 全 部 参 
数 为 默认 值 ， 然 后 再 修改 Hidden Layer 参数 ， 启 动 训练 和 评估 ， 得 到 如 表 6.4 所 示 的 评估 
数据 。 


表 6.4 修改 Hidden Layer 参数 值得 到 的 结果 


均 方 根 误差 (RMSE) 
0.2786 


正确 分 类 的 实例 (%) 
91.1681 
91.453 


构建 模型 时 间 ( 秒 ) 
3.83 


Hidden Layer 参数 值 


92.0228 
91.7379 


可 以 看 到 ， 改 变 网 络 结构 对 评估 性 能 有 一 定 影响 。 但 是 ， 让 人 伤心 的 是 ，BP 网 络 只 
能 学 习 一 些 参数 ， 而 无 法 自动 学 习 配 置 网 络 结构 ， 只 能 采用 试 错 法 去 寻找 一 种 符合 当前 数 
据 的 最 优 网 络 结构 。 
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6:3 文本 分 类 


自动 文本 分 类 也 简称 为 文本 (文档 ) 分 类 ， 是 指 在 给 定 分 类 体系 下 ， 根 据 文本 内 容 自动 
确定 文本 类 别 的 过 程 。20 世纪 90 年 代 以 前 ， 占 主导 地 位 的 文本 分 类 方法 是 由 专业 人 员 手 
工 进行 分 类 。 人 工分 类 非常 费时 ， 效 率 非常 低 。90 年 代 以 来 ， 众 多 的 统计 方法 和 机 器 学 习 
方法 开始 应 用 于 自动 文本 分 类 ， 文 本 分 类 技术 的 研究 引起 了 研究 人 员 的 极 大 兴趣 。 目 前 的 
文本 分 类 主要 在 信息 检索 、Web 文档 自动 分 类 、 数 字 图 书馆 、 自 动 文摘 等 多 个 领域 得 到 一 
些 应 用 。 

英文 文本 分 类 比较 直观 ， 一 般 使 用 StringToWordVector 过 滤器 将 文本 转换 为 一 种 样本 
矢量 的 数据 和 矩阵， 然后 像 分 类 一 般 的 数据 集 那 样 使 用 分 类 器 。 相 比 于 英文 文本 分 类 ， 中 文 
文本 分 类 的 一 个 重要 的 差别 在 于 预 处 理 阶段 。 中 文 文本 需要 分 词 ， 不 像 英 文 文本 的 单词 那 
样 有 空格 来 区 分 。 从 简单 的 查 词典 的 方法 ， 到 后 来 的 基于 统计 语言 模型 的 分 词 方 法 ， 中 文 
分 词 的 技术 已 趋 于 成 熟 。 本 书 使 用 琅 Analyzer 工具 进行 分 词 ， 这 是 一 个 开源 的 基于 java 
语言 开发 的 轻 量 级 的 中 文 分 词 工具 包 。 

一 旦 经 过 预 处 理 将 中 文 文本 转换 为 样本 矢量 的 数据 和 矩阵， 那么 随后 的 文本 分 类 过 程 和 
英文 文本 分 类 相同 ， 也 就 是 说 ， 随 后 的 文本 分 类 过 程 独立 于 语种 。 因 此 ， 当 前 的 中 文 文本 
分 类 主要 集中 在 如 何 利用 中 文本 身 的 一 些 特征 来 更 好 地 表示 文本 样本 。 

除了 上 文 所 说 的 将 文档 转换 为 样本 矢量 模型 之 外 ， 可 能 还 根据 需要 选 做 移 除 停 用 词 、 
词 干 提取 、 词 频 统计 和 “TF-IDF 计算 。 其 中 ， 移 除 停 用 词 是 指 删除 在 信息 检索 和 文本 挖掘 
中 没有 用 处 的 词 ， 比 如 ， 英 文中 的 “the、of、and” 等 。 移 除 停 用 词 有 两 大 作用 ， 第 一 ， 
能 有 效 减少 数据 文件 的 大 小 ， 一 般 而 言 ， 停 用 词 占 20% 一 30% 的 总 词 量 ; 第 二 ， 能 提高 系 
统 的 效率 ， 因 为 停 用 词 无 用 但 有 时 还 会 迷惑 系统 。 词 干 提取 是 简化 单词 的 技术 ， 它 将 单词 
转换 为 词 干 。 词 干 提 取 能 匹配 相似 的 单词 ， 提 高 查 全 率 ， 从 而 提高 信息 检索 和 文本 挖掘 的 
有 效 性 ， 另 外 ， 词 干 提取 能 够 合并 相同 词 干 的 单词 ， 从 而 大 大 减 小 索引 的 大 小 。 

另外 ， 样 本 矢量 模型 有 多 种 表示 方式 ， 最 简单 的 方式 是 分 别 采 用 1 或 0 来 表示 文档 某 
个 单词 的 有 和 无 ， 还 可 以 采用 词 频 表 TF 或 词 逆 向 文档 频率 表 TF-IDF 来 表示 。 在 一 份 文 档 
中 ， 词 频 (Term Frequency，TF) 指 的 是 某 个 给 定 的 单词 在 该 文档 中 出 现 的 次 数 ， 该 数字 通 
常 要 规范 化 ， 以 防止 它 偏向 长 文档 。TF-IDF(Term Frequency-Inverse Document Frequency) 
是 一 种 用 于 信息 检索 与 文本 分 类 的 常用 加 权 技 术 ， 它 是 一 种 用 于 评估 某 个 单词 对 于 一 个 文 
档 集 或 一 个 语料库 中 的 其 中 一 份 文档 的 重要 程度 的 统计 方法 。 单 词 的 重要 性 与 它 在 文档 中 
出 现 的 次 数 成 正比 ， 但 同时 与 它 在 语料库 中 出 现 的 频率 成 反比 。 

下 面 先 从 一 个 文本 分 类 的 简单 示例 开始 ， 介 绍 如 何 使 用 Weka 工具 来 进行 文本 分 类 。 


6.3.1 文本 分 类 示例 


本 节 完 成 一 个 简单 文本 分 类 的 实验 。 原 始 数 据 是 文本 ， 首 先 需 要 转换 成 适合 学 习 的 形 
式 ， 具 体 方法 是 从 训练 语 料 中 的 所 有 文档 创建 一 个 词典 ， 使 用 Weka 的 无 监督 属性 过 滤器 
StringToWordVector， 为 每 个 词 创建 一 个 数值 属性 。 转 换 后 ， 同 样 存在 类 别 属性 ， 也 就 是 


文档 的 类 别 标签 。 

StringToWordVector 过 滤器 假定 待 分 类 文本 的 属性 类 型 是 字符 串 类 型 ， 该 类 型 是 一 种 
没有 预先 设 定 值 的 标 称 属性 。 过 滤 后 的 数据 会 将 该 文本 替代 为 一 组 固定 的 数值 属性 ， 类 别 
属性 的 位 置 由 默认 的 最 末 变 成 最 前 ， 成 为 第 一 个 属性 。 

因此 ， 完 成 文档 分 类 的 第 一 步 是 创建 ARFF 格式 的 训练 集 和 测试 集 文件 ， 其 中 必须 有 
一 个 字符 串 属 性 以 容纳 文档 的 文本 。 具 体 方法 就 是 在 ARFF 文件 的 头 部 使 用 @attribute 
document string 进行 声明 ， 这 里 的 document 为 属性 名 称 ， 另 外 ， 还 需要 一 个 标 称 属 性 作为 
文本 的 类 别 属 性 ， 这 里 的 类 别 属性 名 称 为 class， 是 一 个 二 元 (只 有 yes 和 no) 的 标 称 属性 。 
这 样 ， 就 完成 了 训练 文档 和 测试 文档 的 建立 ， 分 别 如 数据 集 6.1 和 数据 集 6.2 所 示 。 


数据 集 6.1 TrainingDocuments.arff 
@relation “文档 分 类 训练 集 ' 


Q@attribute document string 
@attribute class {yes,no} 


@data 


"奥运 会 篮球 比赛 和 世界 篮球 锦标 赛 的 比赛 场地 长 度 是 28 米 宽 15 米 '，yes 

"罚球 区 是 限制 区 加 上 以 罚球 线 中 点 为 圆心 以 1.80 米 为 半径 向 限制 区 外 所 夯 的 半圆 区 域 '， 
yes 

"地 球 是 太阳 系 从 内 到 外 的 第 三 颗 行星 '，no 

"从 卫星 上 鸟 茹 地 球 感受 前 所 未 有 的 视觉 冲击 '，no 

"篮球 运动 于 1891 年 起 源 于 美国 '，yes 

"游览 遥远 的 地 方 漫步 3D 森林 穿梭 时 空 回 到 过 去 '，no 


数据 集 6.2 TestDocuments.arff 
@relation ' 文 档 分 类 测试 集 ' 


Q@attribute document string 
@attribute class {yes,no} 


@data 


"篮球 运动 是 以 投篮 上 复 和 扣篮 为 中 心 的 对 抗 性 室内 体育 运动 之 一 '，? 

"浏览 这 些 令 人 惊叹 的 图 片 或 在 太空 中 飞 往 图 片 所 对 应 的 位 置 '，? 

"篮球 运动 是 1896 年 前 后 由 天 津 中 华 基督 教 青年 会 传 入 中 国 的 '，? 

"您 可 以 探索 由 Google 地 球 和 支持 合作 伙伴 创建 的 包含 大 量 景点 视频 和 图 像 的 资源 库 

训练 集 和 测试 集 文本 的 document 属性 描述 篮球 和 Google 地 球 的 内 容 ， 类 别 标签 为 
yes 的 是 篮球 运动 的 说 明 ， 类 别 标签 为 no 的 是 Google 地 球 的 说 明 。 由 于 不 打算 一 下 就 涉 
及 中 文 分 词 ， 以 免 将 情况 复杂 化 ， 这 里 先 用 空格 符号 对 文档 进行 了 手工 分 词 。 测 试 集 文件 
的 类 别 属性 标签 使 用 “?” 符 号 表示 其 值 缺失 。 

现在 使 用 StringToWordVector 过 滤器 对 训练 集 文件 进行 预 处 理 ， 然 后 构建 J48 决策 
树 。 启 动 Weka 探索 者 界面 ， 加 载 TrainingDocuments.arff 文件 ， 可 以 看 到 数据 集 仅 有 两 个 
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属性 。 然 后 单 击 Filter 子 面板 下 的 Choose 按钮 ， 选 中 StringToWordVector 过 滤器 ， 保 持 默 
认 选 项 不 变 ， 单 击 Apply 按钮 实施 过 滤 ， 再 将 类 别 属 性 设 为 第 一 个 属性 (class)。 过 滤 后 的 
结果 如 图 6.77 所 示 ， 可 见 ， 预 处 理 将 原来 的 数据 集 由 2 个 属性 转换 为 61 个 属性 ， 每 个 属 
性 的 名 称 为 文档 文本 里 的 单词 。 


图 6.77 ” 预 处 理 结果 


单 击 预 处 理 面板 里 的 Edit 按钮 ， 可 以 看 到 当前 的 数据 集 ， 如 图 6.78 所 示 。 可 见 ， 
StringToWordVector 过 滤器 创建 一 个 词典 ， 每 个 文档 中 如 果 某 个 单词 ， 对 应 的 属性 值 就 为 
0， 否 则 为 1。 


图 6.78 ” 预 处 理 后 的 数据 集 


单 击 预 处 理 面板 里 的 Save 按钮 ， 将 当前 数据 集 保存 为 TrainingDocuments- 
preprocessed.arff 文件 ， 使 用 任意 文本 编辑 器 打开 该 文件 进行 研究 ， 其 内 容 如 数据 集 5.3 所 
示 。 研 究 时 要 注意 三 个 地 方 ， 第 一 ， 关 系 名 称 为 预 处 理 前 的 关系 名 加 上 预 处 理 的 过 滤器 名 
称 及 其 选项 ， 第 二 ， 字 符 串 属性 转换 为 数值 型 的 和 矩阵， 类别 属性 只 是 将 位 置 变 为 第 一 个 属 
性 ， 其 他 不 变 ， 第 三 ， 产 生 的 文件 是 压缩 格式 的 ARFF， 也 就 是 只 显示 不 为 0 的 属性 值 。 
这 里 以 第 一 个 实例 为 例 进行 解释 ，{2 1,4 1,8 1,24 1,29 1,32 1,33 1,38 1,40 1,43 1,46 1,47 1,57 
1,58 1} 表 示 第 2 个 属性 值 为 1， 第 4 个 属性 值 为 1， 以 此 类 推 。 注 意 到 这 里 所 说 的 第 n 
个 ， 是 指 以 0 为 基 ( 即 从 0 开始 计数 ) 的 属性 索引 ， 不 同 于 图 6.78 所 示 的 以 1 为 基 的 属性 索 
引 。 比 如 ， 类 别 属性 在 图 6.78 显示 为 第 1 个 属性 ， 但 在 数据 集 6.3 中 却 表示 为 第 0 个 属 
性 。 而 且 因 为 是 压缩 表示 ， 如 果 类 别 属性 标签 为 yes， 这 是 第 0 个 类 别 其 离散 值 就 是 0， 所 
以 不 显示 。 


数据 集 6.3 TrainingDocuments-preprocessed.arff 


erelation ' 文 档 分 类 训练 集 -weka.filters.unsupervised.attribute.SstringToWordVector- 
R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullSstemmer-M]1— 
tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" 
MMMaNMNESeaNMV NN RN 

Qattribute class {yes, no} 

Q@attribute 1 numeric 

Q@attribute 15 numeric 

@attribute 1891 numeric 

Q@attribute 28 numeric 

Q@attribute 3D numeric 

Q@attribute 80 numeric 

Q@attribute 上 numeric 

Q@attribute 世界 numeric 

Qattribute 中 点 numeric 

@data 

{2 Lid ,6 Ly16. 1,180 1,20 L721 L124 125 1726 1,27 1,28. 1;34 1;35;, 1F 
{1 dS Ed Lo lL li el Ld L517 L190. 12 3.24 1,26. 20 
1,29 1,30 1,36 1} 

{0 no,19 1,24 1,26 1,39 1,40 1,42 1,47 1,48 1,55 1,56 1} 

{0 no,26 1,38 1,39 1,41 1,43 1,44 1,47 1,49 1,57 1,60 1} 

{9 9 .122 .27 TaL L321.33. 08 

{0 no,26 1,37 1,45 1,46 1,50 1,51 1,52 1,53 1,54 1,58 1,59 1} 


前 面 的 预 处 理 仅 判 断 单词 是 否 出 现 ， 并 不 关心 该 单词 出 现 的 次 数 ， 即 词 频 TF。 如 果 想 
得 到 单词 的 出 现 次 数 ， 请 将 StringToWordVector 过 滤器 的 outputWordCounts 选项 设置 为 


True， 再 次 过 滤 ， 结 果 如 图 6.79 所 示 。 由 于 单词 “篮球 ”出 现 过 2 次 ， 因 此 对 应 的 属性 值 
为 2.0。 
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6.79 ”显示 单词 的 出 现 次 数 


如 果 再 将 过 滤器 的 minTermFreq 选项 由 默认 的 1 更 改 为 2?， 可 以 看 到 ， 结 果 筛选 掉 出 
现 频 率 低 的 单词 ， 即 出 现 次 数 低 于 2 次 的 单词 。 如 图 6.80 所 示 ， 这 样 ， 属 性 数量 就 由 原来 
的 61 个 减少 到 12 个 。 这 12 个 属性 中 ， 还 有 几 个 和 文本 分 类 关系 不 大 的 单词 ， 如 
“为 ”、“ 于 ”、“ 以 ”、“ 是 ”、“ 的 ”等 ， 可 以 通过 选取 停 用 词 将 这 些 单词 吻 出 ， 
StringToWordVector 过 滤器 可 以 通过 更 改 stopwords 选项 来 设置 停 用 词 。 
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6.80 ”筛选 掉 出 现 频 率 低 的 单词 


经 过 上 面 的 预 处 理 ， 文 本 分 类 就 和 一 般 的 分 类 问题 没有 什么 太 多 的 区 别 。 但 是 ， 要 注 
意 的 是 ， 训 练 集 和 测试 集 不 能 单独 进行 预 处 理 ， 否 则 会 由 于 形成 的 词典 不 兼容 而 导致 训练 
好 的 模型 不 能 对 测试 集 进行 预测 的 情况 ， 解 决 这 个 问题 有 两 种 办 法 ， 一 种 是 使 用 第 7 章 所 
述 的 批量 过 滤 ， 另 一 种 就 是 使 用 元 分 类 器 。 这 里 使 用 第 二 种 方法 ， 使 用 FilteredClassifier 
元 分 类 器 。 有 具体 方法 是 : 切换 至 Classify 面板 ， 单 击 Classifier 子 面板 下 的 Choose 按钮 选 
择 FilteredClassifier 元 分 类 器 ， 单 击 Choose 按钮 右边 的 输入 框 ， 在 通用 对 象 编辑 器 中 选择 
默认 的 J48 决策 树 作 为 基 分 类 器 ， 选 择 StringToWordVector 作为 元 分 类 器 的 过 滤器 ， 如 
6.81 所 示 。 由 于 已 经 在 元 分 类 器 中 使 用 了 过 滤器 ， 因 此 一 定 要 在 预 处 理 面板 取消 前 面 使 
用 StringToWordVector 的 过 滤 操作 ， 单 击 一 次 Undo 按钮 即 可 取消 过 滤 操 作 。 
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图 6.81 设置 元 过 滤器 选项 


然后 ， 在 Test options 子 面 板 中 ， 选 择 Supplied test set 单 选 框 ， 单 击 Set... 按 钮 ， 选 择 
前 面 创建 的 TestDocuments.arff 文件 作为 测试 集 。 最 后 ， 单 击 More options.…. 按 钮 ， 在 弹出 
的 Classifier evaluation options 对 话 框 中 ， 单 击 Output predictions 提示 后 的 Choose 按钮 ， 选 
择 Plaintext 模式 输出 预测 。 单 击 Start 按钮 启动 元 分 类 器 ， 结 果 如 图 6.82 所 示 。 

0 | 


Ea 


图 6.82 文本 分 类 运行 结果 


可 以 看 到 ， 生 成 的 决策 规则 为 “篮球 <= 0: no” 和 “篮球 > 0: yes”， 比 较 合 理 。 且 
对 测试 集 的 四 条 实例 进行 了 预测 ， 结 果 符 合 预期 ， 读 者 可 自行 验证 。 


6.3.2 ”分 类 真实 文本 

上 一 节 使 用 了 简单 的 数据 集 展示 了 文本 分 类 的 基本 方法 ， 要 评估 和 进行 文本 分 类 实 
验 ， 最 好 使 用 标准 的 公开 的 数据 集 。 通 讯 社 的 标准 报道 集 广泛 用 于 评估 文本 分 类 器 的 性 
能 。ReutersCorn-train.arff 和 ReutersGrain-train.arff 都 是 Weka 自 带 的 数据 集 ， 这 两 个 训练 
集 都 来 自 路 透 社 的 报道 集 ， 对 应 的 测试 集 为 ReutersCorn-test.arff 和 ReutersGrain-test.arff。 
事实 上 ，com( 玉 米 ) 和 grain( 谷 物 ) 数 据 集 里 的 实际 文档 相同 ， 只 是 类 别 标签 不 同 。 在 玉米 数 
据 集 中 ， 与 玉米 相关 的 报道 的 类 别 标签 都 为 1， 其 余 的 类 别 值 为 0。 实 验 的 目标 是 要 构建 
一 个 分 类 器 ， 以 确定 “与 玉米 相关 ”的 文档 。 另 一 个 训练 集 和 测试 集 ， 与 谷物 相关 的 报道 
的 类 别 标签 都 为 1， 其 余 的 类 别 值 为 0。 实验 的 目标 是 找 出 “与 谷物 相关 ”的 文档 。 
下 面 使 用 带 StringToWordVector 过 滤器 的 FilteredClassifier 元 分 类 器 对 ReutersCorn- 
train 和 ReutersGrain-train 训练 集 分 别 构建 分 类 模型 ， 并 对 每 一 个 训练 集 分别 将 基 分 类 器 设 
为 J48 和 NaiveBayesMultinomial， 然 后 使 用 对 应 的 测试 集 对 分 类 模型 进行 评估 ， 文 本 分 类 
的 准确 率 如 表 6.5 所 示 。 

表 6.5 不 同 基 分 类 器 的 FilteredClassifier 元 分 类 器 对 路 透 社 数据 集 的 评估 结果 


序 号 训练 集 基 分 类 器 准确 率 


ReutersCom-test arff 97351% 
NaiveBayesMultinomial | 93.7086% 


1 

2 

3 963576% 
4 ReutersGrain-test.arff 90.7285% 


从 结果 上 来 看 ， 基 分 类 器 为 J48 比 NaiveBayesMultinomial 的 分 类 准确 率 要 高 一 些 。 如 
果 只 看 重 分 类 准确 率 ， 那 么 肯定 应 该 选 J48 作为 基 分 类 器 。 

但 是 ， 除 了 分 类 准确 率 这 个 常用 的 评估 指标 以 外 ， 在 文本 分 类 中 还 使 用 其 他 的 评估 指 
标 ， 如 真 阳 性 率 TPR、 假 阳性 率 FPR、 真 阴性 率 TNR、 假 阴性 率 FNR、 查 准 率 
Precision、 查 全 率 Recall 和 综合 评价 指标 F-measure。 表 6.6 的 前 面 四 个 指标 直接 来 自前 
对 四 次 实验 的 评估 结果 里 的 混淆 矩阵 ， 后 面 的 三 个 指标 需 根据 如 下 计算 公式 计算 得 到 ， 读 
者 可 自行 验证 。 


Precision = = x100% 
TP+FP 


x100% 


Recall = 8 
TP+FN 
2x Recall x Precision 
Recall + Precision 
从 表 6.6 可 知 ， 单 从 查 准 率 来 看 ， 第 2 次 实验 好 于 第 1 次 ， 第 4 次 实验 好 于 第 3 次 ， 
在 查 准 率 指 标 上 NaiveBayesMultinomial 分 类 器 胜 过 J48。 但 是 ， 查 全 率 和 F-measure 指标 
上 ，J48 分 类 器 仍然 胜出 。 由 于 F-measure 是 查 准 率 和 查 全 率 的 综合 指标 ， 可 信和 度 要 高 一 
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些 ， 因 此 可 以 推断 ， 选 择 J48 作为 基 分 类 器 的 性 能 要 优 于 NaiveBayesMultinomial 分 类 器 。 
表 6.6 其 他 评估 指标 


F-Measure 
0.9862 


0.9665 
| 0.9802 


下 一 节 使 用 Weka 的 可 视 化 工具 ， 对 上 述 四 次 实验 的 结果 进行 分 析 。 


6.3.3 手把手 教 你 用 

1. 真实 文档 分 类 的 可 视 化 分 析 

本 次 实验 接着 对 上 一 节 的 真实 文档 分 类 进行 可 视 化 分 析 。 

Weka 支持 各 种 可 视 化 分 析 。 前 面 实验 的 分 类 器 输出 中 也 同样 给 出 了 ROC 曲线 和 
ROC 曲线 下 的 面积 AUC， 这 是 根据 分 类 器 产生 的 预测 排名 ， 在 测试 数据 中 随机 挑选 正 例 
的 概率 高 于 随机 挑选 负 例 的 概率 的 程度 指标 。 最 佳 的 输出 是 所 有 的 正 例 样本 的 预测 概率 排 
名 都 高 于 所 有 的 负 例 样本 ， 这 样 AUC 为 1; 最 差 的 情形 是 AUC 为 0; 在 排名 是 完全 随机 
的 情况 下 ，AUC 为 0.5。 也 就 是 ROC 曲线 是 点 (0, 0) 和 点 (1, 1) 连 线形 成 的 ， 这 时 的 ROC 曲 
线 实际 代表 的 是 随机 分 类 器 ， 如 果 AUC 低 于 0.5， 说 明 分 类 器 的 性 能 比 随机 分 类 器 还 差 。 

现在 来 看 前 文 的 四 次 实验 的 ROC 曲线 和 AUC。 在 Weka 探索 者 的 分 类 面板 中 ， 右 击 
Result list 子 面板 中 的 条 目 ， 在 弹出 菜单 中 选择 Visualize threshold curve 菜单 项 ， 并 选择 
0( 类 别 值 为 0 表示 正 例 )，Weka 弹出 如 图 6.83 所 示 的 可 视 化 阔 值 曲线 窗口 ， 图 中 的 Area 
underROC 就 是 AUC 指标 。 
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图 6.83 ROC 曲线 


对 于 ROC 曲线 ， 有 以 下 四 个 要 点 需要 注意 ， 第 一 ，ROC 曲线 总 是 单调 上 升 的 ; 第 
，ROC 曲线 总 会 通过 点 (0,0) 和 点 (1,1); 第 三 ，ROC 曲线 的 最 好 的 点 在 左上 角 ， 曲 线 尽 
量 靠 近 左 上 角 最 好 ， 最 差 的 点 在 右 下 角 ; 第 四 ，AUC 面积 越 大 ， 说 明 分 类 器 的 性 能 越 好 。 
为 了 方便 比较 ， 将 四 次 实验 的 ROC 曲线 都 放 在 一 起 ， 如 图 6.84 所 示 。 从 图 中 容易 看 


出 ， 就 ROC 曲线 和 ROC 曲线 下 的 面积 AUC 指标 来 看 ，NaiveBayesMultinomial 分 类 器 的 
性 能 远 比 J48 好 。 其 中 (3) 和 (4) 相 差 不 大 ， 但 (1) 和 (2) 相 差 很 大 。 
前 面 的 实验 肯定 让 读者 心中 很 疑惑 ， 为 什么 ROC 曲线 形状 如 此 完美 的 
NaiveBayesMultinomial 会 在 分 类 准确 度 性 能 上 输 给 J48? 如 何 解释 ROC 和 分 类 准确 度 这 两 
种 指标 的 不 一 致 ? 

也 许 看 一 看 测试 集 的 类 别 分 布 能 看 出 一 点 端倪 。 图 6.85 为 路 透 社 两 个 测试 集 的 类 别 分 
布 ， 可 以 看 到 ， 正 例 和 负 例 的 分 布 及 其 不 平衡 ， 类 别 值 为 0 的 正 例 占据 了 绝对 的 统治 
地 位 。 


Plot (Area under ROC = 0.6943) Plot (Area under ROC = 0.9523) 
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图 6.84 ”四 次 实验 的 ROC 曲线 


Selected attribute Selected attribute 


Hane: class-att Type: Joninal Nene: class-att Type: Joninal 
Nissing: 0 (0%) Distinet: 2 Unigue: 0 (0%) Missing: 0 O%) Distinet: 2 Unigue; 0 (0 
|m. Label Count Weight J Label Count Weight 
10 580 |ss0.0 | 1|0 547 547.0 
2 24 IE | 2 5 57.0 


(a) ReutersCorn-test.arff (b) ReutersGrain-test.arff 


图 6.85 ”路 透 社 两 个 测试 集 


由 于 TPR= 一 也“，FPR= 一 下， 可 以 计算 出 上 述 两 个 差别 很 大 实验 的 真 阳 性 率 和 
TP+FN FP+IN 


假 阳性 率 ， 如 表 6.7 所 示 。 从 表 中 可 以 看 到 ， 第 一 次 实验 的 TPR 比 第 二 次 实验 的 TPR 在 数 
值 上 好 得 并 不 大 ， 但 在 FPR 上 却 相差 很 大 。 再 看 看 这 两 次 实验 的 FN 指标 ， 这 是 错 判 为 负 
例 的 正 例 ，7 与 32 相差 4 倍 以 上 ， 但 由 于 正 例 的 绝对 值 很 大 (ITP+FN=580)， 这 样 ， 按 照 
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TPR 的 计算 公式 ， 很 小 的 FN 值 对 TPR 影响 力 较 小 ， 就 掩盖 了 错 判 的 真实 情况 。 因 此 ， 一 
般 来 说 ，ROC 不 太 适 合 应 用 在 极端 不 平衡 的 数据 集中 。 


表 6.7 ReutersCorn 的 TPR 和 FPR 


现在 查看 前 两 次 差别 最 大 的 实验 的 ROC 曲线 。 回 到 Classify 面板 ， 分 别 右 击 Result 
list 子 面板 中 的 前 两 个 条 目 ， 在 弹出 菜单 中 选择 Visualize threshold curve 菜单 ， 并 选择 1， 
Weka 弹出 如 图 6.86 所 示 的 两 个 可 视 化 阔 值 曲线 窗口 。 可 以 看 到 ， 虽 然 () 的 ROC 曲线 和 
以 前 差别 不 是 很 大 ， 但 (a) 的 ROC 曲线 却 和 图 6.84 的 (a) 图 有 明显 的 不 同 ， 前 者 的 真 阳性 率 
TPR 在 开始 的 时 候 陡然 上 升 ， 但 到 达 一 定 值 的 时 候 开 始 平 坦 向 右 ， 说 明 此 时 假 阳 性 率 FPR 
增加 很 快 ， 最 后 TPR 再 次 稍 快 地 上 升 ， 后 者 的 真 阳性 率 TPR 在 开始 的 时 候 上 升 很 慢 ， 然 
后 上 升 较 快 ， 最 后 很 大 一 段 TPR 开始 平坦 向 右 ， 此 时 的 假 阳性 率 FPR 应 该 增加 很 快 。 因 
此 ， 尽 管 这 两 者 的 图 形 相 差 很 远 ， 但 AUC 的 值 完全 相等 。 


Plot res under ROC = 0.6943) Plot (Ares under ROC = 0.9523) 
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(a) ReutersCorn+J48 


(b) ReutersCorn+NaiveBayesMultinomial 
图 6.86 差别 最 大 的 ROC 曲线 (类 别 为 1) 


除 ROC 曲线 外 ， 还 可 以 绘画 出 其 他 的 阔 值 曲线 图 ， 如 果 在 ROC 曲线 图 里 将 x 坐标 设 
为 查 全 率 Recall， 将 y 坐标 设 为 查 准 率 Precision， 这 时 的 曲线 称 为 Recall-Precision 
Curve( 查 全 率 - 查 准 率 曲线 )， 如 图 6.87 所 示 。 
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6.87” 查 全 率 - 查 准 率 曲 线 


为 了 方便 比较 ， 同 样 将 四 次 实验 的 查 全 率 - 查 准 率 曲线 都 放 在 一 起 ， 如 图 6.88 所 示 。 
对 于 查 全 率 - 查 准 率 曲线 ， 有 以 下 四 个 要 点 需要 注意 ， 第 一 ， 查 全 率 - 查 准 率 曲线 不 会 总 是 
单调 上 升 ， 因 为 TP 上 升 ，FP 上 升 ， 下 既 可 以 上 升 ， 也 可 以 下 降 ， 第 二 ， 在 查 全 率 很 
小 的 时 候 ， 希 望 查 准 率 就 能 达到 很 高 的 值 ， 以 免检 索 出 很 多 无 关 材 料 。 从 这 个 角度 出 发 ， 
6.88 的 (a) 比 (b) 好 ，(c) 比 (d) 好 ; 第 三 ， 与 ROC 曲线 不 同 ， 查 全 率 - 查 准 率 曲线 的 最 好 的 
点 在 右上 角 ， 尽 量 靠近 右上 角 最 好 。AUPRC(Area Under the Precision-Recall Curve， 查 全 
率 - 查 准 率 曲线 下 面积 ) 是 一 种 蔡 代 的 统计 总 结 指标 ， 尤 其 在 信息 检索 领域 ， 更 受 领域 人 十 
青睐 ， 第 四 ， 当 横 坐 标 查 全 率 等 于 1 时 ， 纵 坐标 查 准 率 在 数值 上 应 该 等 于 真实 正 例 数量 与 
全 体 实例 数量 之 比 。 也 就 是 ， 对 于 ReutersCom， 最 终 的 查 准 率 =580/(580+24)=0.9603; 而 
对 于 ReutersGrain， 最 终 的 查 准 率 =547/(547+57)=0.9056。 因 此 图 6.88 中 ， 四 条 曲线 的 最 右 
端 都 落 在 纵 坐 标 非 常 接近 1 的 位 置 。 
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6.88 ”四 次 实验 的 查 全 率 - 查 准 率 曲线 


2. 文本 分 类 的 优化 
使 用 默认 选项 ，StringToWordVector 过 滤器 只 是 根据 单词 是 否 出 现在 文档 中 ， 决 定 转 
换 后 的 数据 集中 的 词典 对 应 的 属性 值 是 1 还 是 0。 和 其 他 过 滤器 一 样 ，StringToWordVector 
过 滤器 还 有 很 多 选项 可 以 设置 ， 调 整 这 些 选项 可 以 优化 文本 分 类 的 性 能 。 主 要 选项 如 下 。 
e ”outputWordCounts( 输 出 单词 计数 ): 输出 单词 计数 ， 而 不 是 表示 词语 的 存在 或 不 存 
在 的 布尔 值 0 或 1。 
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e ”IDFTransform(IDF 转换 ): 设置 是 否 将 一 个 文档 中 的 词 频 转换 为 : fi*log(Docs 数 
量 /含有 词 i 的 Docs 数量 ) 。 其 中 ,5 为 词 i 文档 (实例 )j 中 出 现 的 频率 。 

e@ ”TFTransform(TF 转换 ): 设置 是 否 将 词 频 转换 为 : log(1+ 伍 ) 。 其 中 ,全 为 词 i 文 
档 (实例 )j 中 出 现 的 频率 。 如 果 上 述 两 个 选项 都 设置 为 tue， 词 频 就 转换 为 TF x 
IDF 值 。 

e ”stemmer( 词 干 分 析 器 ): 用 户 可 以 选择 用 于 单词 的 词 干 提取 算法 。 

e@ ”useStoplist( 使 用 停 用 词 ); 让 用 户 决定 是 否 忽略 文档 中 的 停 用 词 。 

e@ ”tokenizer( 分 词 器 ): 用 户 可 以 选择 产生 单词 的 分 词 器 。 

面 对 如 此 多 的 选项 ， 读 者 可 以 尝试 一 下 依靠 手工 的 方式 改变 一 些 选项 ， 以 获得 更 好 的 
分 类 性 能 。 但 显然 当 这 个 工作 烦琐 而 费时 ， 很 难 赁 手工 方式 找到 一 个 优化 的 参数 空间 。 下 
面 采用 另 一 种 思考 方式 ， 假 设 已 经 使 用 StringToWordVector 过 滤器 将 原始 文档 转换 为 适合 
数据 分 类 的 样本 矢量 数据 矩阵 ， 不 是 所 有 的 属性 ( 即 单词 ) 对 文本 分 类 都 是 一 样 的 重要 ， 很 
多 单词 对 于 区 分 文章 的 主题 并 没有 什么 关系 。 因 此 ， 如 果 采 用 一 种 方式 能 够 删除 用 处 不 大 
的 属性 ， 那 么 应 该 能 够 提高 文本 分 类 的 效率 。 

具体 实验 步骤 是 ， 在 探索 者 的 预 处 理 面板 中 ， 选 择 ReutersCorn-train.arff 文件， 然后 切 
换 至 分 类 面板 ， 仍 然 选择 FilteredClassifier 元 分 类 器 。 单 击 Classifier 子 面板 里 的 输入 框 ， 
打开 通用 对 象 编辑 器 对 话 框 ， 仍 然 将 filter 选项 设置 为 StingToWordVector， 保 持 默认 选项 。 
然后 ， 单 击 classifier 选项 后 的 Choose 按钮 ， 选 择 基 分 类 器 为 AttributeSelectedClassifier， 
如 图 6.89 所 示 。 
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6.89 设置 FilteredClassifier 选项 


下 一 步 ， 单 击 图 6.89 中 classifier 选项 后 的 输入 框 ， 在 通用 对 象 编辑 器 对 话 框 中 ， 设 置 
classifier 选项 为 NaiveBayesMultinomial， 设 置 evaluator 选项 为 InfoGainAttributeEval， 设 
置 search 选项 为 Ranker， 目 前 全 部 都 保持 默认 设置 ， 如 图 6.90 所 示 。 

关闭 两 个 通用 对 象 编辑 器 对 话 框 。 在 分 类 面板 中 的 Test options 子 面板 中 ， 设 置 测 试 策 
略为 Supplied test set， 单 击 Set 按钮 ， 设 置 测试 集 为 ReutersCom-test.arff 文件 。 最 后 ， 单 
上 Start 按钮 启动 评估 ， 运 行 结果 如 图 6.91 所 示 。 

可 以 看 到 ， 当 前 的 分 类 准确 率 为 93.7086%， 相 对 于 表 6.5 中 几乎 同等 条 件 下 的 第 二 次 
实验 结果 93.7086% 来 说 ， 并 没有 任何 提高 。 
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Choose |InfoGainAttributeEval 


Choose |Renker -T -1.7976931348623157E308 -¥ -1 


图 6.91 运行 结果 


现在 来 调整 AttributeSelectedClassifier 元 分 类 器 的 search 选项 。 按 照 前 文 所 述 的 方法 ， 
打开 图 6.90 所 示 的 对 话 框 ， 单 击 search 选项 后 的 输入 框 ， 将 numToSelect 选项 由 -1 改 为 
50， 也 就 是 筛选 后 保留 50 个 属性 ， 如 图 6.92 所 示 。 
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6.92 ”更改 Ranker 选项 


再 次 关闭 所 有 的 通用 对 象 编辑 器 对 话 框 ， 单 击 按钮 启动 评估 ， 运 行 结 果 显示 当前 的 分 
类 准确 率 已 经 提高 至 95.5298%。 重 复 上 述 过 程 ， 将 numToSelect 选项 改 为 表 6.8 中 第 一 行 
里 的 数值 ， 然 后 将 得 到 的 分 类 准确 率 填 入 表 6.8 所 示 的 第 二 行 中 。 
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表 6.8 更 改 numToSelect 选项 对 分 类 准确 率 的 影响 


99.0066% 


不 难看 出 ， 将 numToSelect 选项 设置 为 10 附近 的 时 候 ， 分 类 准确 率 达 到 最 高 值 99% 以 
上 ， 结 果 令 人 满意 。 


6.4 时 间 序 列 分 析 及 预测 


对 间 序列 是 按时 间 排 序 的 一 组 随机 变量 ， 国 内 生产 总 值 (GDP)、 居 民 消 费 价 格 指数 
(CPD、 上 证 指数 、 利 率 、 汇 率 等 都 是 时 间 序 列 。 时 间 序 列 的 时 间 间 隔 可 以 是 分 钟 ( 如 高 频 
金融 数据 )， 可 以 是 日 、 周 、 月 、 季 度 、 年 ， 甚 至 更 大 的 时 间 单 位 。 
对 间 序 列 分 析 是 使 用 统计 技术 来 建立 模型 并 解释 一 个 随时 间 变 化 的 一 系列 数据 点 的 过 
程 。 时 间 序 列 预测 是 在 已 知 过 去 事件 的 基础 上 ， 使 用 模型 对 未 来 事件 进行 预测 的 过 程 。 时 
间 序 列 数据 有 一 个 自然 的 时 间 顺 序 ， 这 不 同 于 典型 的 数据 挖掘 和 机 器 学 习 的 应 用 程序 ， 典 
型 的 数据 挖掘 和 机 器 学 习 中 每 个 数据 点 是 一 个 需要 学 习 的 独立 的 概念 样本 ， 且 数据 集 内 的 
数据 点 的 顺序 并 不 重要 。 时 间 序 列 应 用 程序 的 典型 例子 包括 : 容量 规划 、 库 存 补 货 、 销 售 
预测 ， 以 及 未 来 人 员 配备 水 平 。 

现在 ，Weka 3.7.3 及 更 高 版 本 已 经 配备 了 一 个 专门 的 时 间 序 列 分 析 环 境 ， 可 以 开发 、 
评估 和 可 视 化 预测 模型 。 该 环境 以 Weka 探索 者 界面 标签 页 插件 的 形式 提供 ， 默 认 并 不 与 
分 发 包 一 起 捆绑 ， 如 果 需 要 ， 可 以 通过 包 管 理 器 进行 安装 。Weka 时 间 序 列 框架 采用 一 种 
机 器 学 习 和 数据 挖掘 的 方法 来 对 时 间 序 列 建 模 ， 将 数据 转换 为 标准 命题 学 习 算法 可 以 处 理 
的 形式 。 通 过 删除 输入 样本 中 的 时 间 顺 序 ， 使 用 附加 的 输入 字段 对 时 间 依 赖 性 进行 编码 ， 
这 些 字段 有 时 称 为 “lagged”( 滞 后 ) 变 量 。 也 能 自动 计算 其 他 字段 ， 以 使 算法 能 对 趋势 性 和 
季节 性 进行 建 模 。 当 数据 完成 转换 后 ， 任 意 的 Weka 回归 算法 都 可 以 应 用 到 学 习 模型 。 应 
用 多 元 线性 回归 是 一 种 显而易见 的 选择 ， 当 然 ， 任 意 能 够 预测 连续 目标 的 方法 都 可 以 应 
用 ， 其 中 包括 强大 的 非 线性 方法 ， 如 支持 向 量 机 回归 模型 树 ( 带 叶 子 节点 线性 回归 函数 的 决 
策 树 )。 这 种 时 间 序 列 分 析 和 预测 方法 往往 比 诸如 ARMA(AutoRegressive Moving Average 
model， 自 回归 滑动 平均 模型 ) 和 ARIMA(AutoRegressive Integrated Moving Average model， 
差分 自 回归 滑动 平均 模型 ) 的 传统 统计 技术 更 为 强大 和 灵活 。 


6.4.1 使 用 时 间 序 列 环境 


时 间 序 列 环境 要 求 Weka 3.7.3 版 本 以 上 支持 ， 使 用 包 管 理 器 进行 安装 。 启 动 包 管 理 
器 窗口 ， 定 位 到 timeseriesForecasting 包 ， 单 击 Install 按钮 进行 安装 ， 安 装 完成 后 的 窗口 如 
图 6.93 所 示 。 

对 间 序 列 建 模 环 境 安装 完成 后 ， 在 本 地 计算 机 的 home 目录 下 ， 可 以 找到 安装 后 的 文 
件 目录 ， 如 图 6.94 所 示 。 其 中 ，build-res 子 目录 存放 编译 资源 ，doc 子 目 录 存 放 API 文 
档 ，lib 子 目 录 存 放 包 所 需要 的 jar 库 文件 ，sample-data 子 目 录 存 放 三 个 测试 数据 集 文 件 ， 


src 子 目 录 存 放 源 文件 。 另 外 ， 在 包 目 录 中 还 可 以 找到 一 个 名 称 类 似 于 pdm- 
timeseriesforecasting-ce-TRUNK-SNAPSHOT.jar 的 文件 ， 如 果 使 用 Java 进行 开发 ， 需 要 导 
入 这 个 jar 库 文件 。 
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图 6.94 安装 完毕 后 的 文件 目录 
重新 启动 Weka， 在 Weka 探索 者 界面 找到 一 个 新 的 预测 (Forecast) 标 签 页 ， 如 图 6.95 
所 示 。 新 增 预 测 功 能 后 并 不 改变 原来 的 数据 加 载 方法 ， 仍 然 使 用 探索 者 预 处 理 面 板 加 载 文 
件 、URL 或 数据 库 的 方法 。 预 测 环境 分 为 基本 配置 和 高 级 配置 选项 ， 其 使 用 方法 将 在 后 面 
的 章节 中 进行 说 明 。 


6.95 ”预测 标签 页 
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1. 基本 配置 


基本 配置 子 面板 如 图 6.95 所 示 ， 这 是 默认 的 配置 方式 ， 可 以 单 击 Advanced 
configuration 标签 页 切换 至 高 级 配置 子 面板 。 

假设 已 经 将 “airline”( 航 空 公司 ) 样 本 数据 集 加 载 到 探索 者 界面 ， 该 数据 集 的 文件 名 为 
“airline.arff ”， 与 男 外 两 个 数据 集 (appleStocks2011.arff 和 wine.arfp 一 起 包含 在 
timeseriesForecasting 包 的 安装 目录 中 。 航 空 公司 数据 是 公开 可 用 的 基准 数据 集 ， 只 有 一 个 
时 间 系 列 数据 一 一 passenger_ numbers( 乘 客人 数 )， 这 是 某 航 空 公司 从 1949 年 至 1960 年 的 
每 月 乘客 人 数 。 除 了 乘客 数量 ， 数 据 还 包括 一 个 日 期 时 间 戳 。 基 本 配置 面板 会 自动 选择 唯 
一 的 目标 系列 以 及 “Date” 时 间 惟 字段 。 在 基本 配置 面板 的 右上 部 ， 可 以 找到 一 个 
了 Parameters( 参 数 ) 子 面板 ， 第 一 行 的 提示 为 Number of time units to forcast( 预 测 时 间 单 位 数 
值 )， 用 户 可 以 在 后 面 输入 时 间 步 长 的 数值 ， 在 所 提供 数据 之 后 对 个 步 长 的 数据 进行 预 
测 。 第 二 行 的 提示 为 Time stamp( 时 间 戳 )， 用 户 可 以 使 用 下 拉 列 表 框 指定 一 个 字段 作为 时 
间 戳 。 在 时 间 戳 的 下 面 ， 有 一 个 提示 为 Periodicity( 周 期 性 ) 的 下 拉 列 表 框 指定 数据 的 周期 
性 。 如 果 正 在 分 析 的 数据 具有 时 间 戳 ， 并 且 时 间 惟 是 日 期 型 ， 那 么 可 以 选择 Detect 
automatically 选项 让 系统 自动 检测 数据 的 周期 性 。Skip list( 跳 过 列表 ) 让 用 户 指定 要 忽略 的 
时 间 段 。 在 Confidence intervals( 置 信 区 间 ) 复 选 框 后 面 有 个 Level( 水 平 ) 输 入 框 ， 允 许 用 户 设 
置 由 系统 计算 预测 的 置信 区 间 。Perform evaluation( 执 行 评估 ) 复 选 框 用 于 对 训练 数据 进行 性 
能 评估 。 后 文 会 介绍 这 些 选项 的 更 多 细节 。 

图 6.96 显示 了 已 提供 数据 结束 后 24 个 月 的 数据 预测 结果 。 图 中 右 下 部 为 可 视 化 的 结 
果 ， 红 色 小 方块 表示 真实 的 旅客 数 ， 红 色 小 圆 点 表示 预测 的 旅客 数 。 
Er 
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图 6.96 ”数据 预测 结果 


1) 目标 选择 

在 基本 配置 面板 的 左上 部 是 Target Selection( 目 标 选 择 ) 子 面板 ， 该 区 域 允许 用 户 在 数 
据 集 当中 选择 希望 预测 目标 字段 。 本 系统 可 以 同时 为 多 个 目标 字段 共同 建 模 ， 以 获取 它们 
之 间 的 依赖 关系 。 正 因为 如 此 ， 同 时 为 多 个 系列 建 模 ， 每 个 系列 可 以 得 到 与 它们 独自 建 模 
不 同 的 结果 。 当 数据 中 只 有 一 个 目标 时 ， 系 统 就 会 自动 选择 唯一 的 目标 ; 在 有 可 能 有 多 个 
目标 的 情况 下 ， 用 户 必须 手动 进行 选择 。 图 6.97 显示 了 另 一 个 基准 数据 集 的 结果 ， 在 这 种 
情况 下 ， 数 据 是 每 月 澳大利亚 葡萄 酒 的 销售 量 (单位 : 升 /月 )。 数 据 集 包含 分 为 六 大 类 的 葡 


萄 酒 的 销售 数据 ， 且 销售 量 为 从 1980 年 头 一 直到 1995 年 中 的 每 月 的 销售 记录 。 图 6.97 同 
时 为 两 个 系列 建 模 并 预测 ， 这 两 个 序列 为 Fortified( 加 强 型 ) 和 Dry-white( 干 白 )。 
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6.97 葡萄酒 12 个 月 的 预测 销售 量 


2) 基本 参数 

在 基本 配置 面板 的 右上 部 是 Parameters( 参 数 ) 子 面板 ， 该 区 域 可 以 用 几 个 简单 的 参数 控 
制 预测 算法 的 行为 。 下 面 分 别 介绍 这 几 个 参数 。 

(1) 预测 的 时 间 单 位 数值 

第 一 个 参数 也 是 最 重要 的 参数 ， 是 Number of time units to forecast( 预 测 的 时 间 单 位 数 
值 ) 文 本 框 。 它 控制 预测 器 对 未 来 要 预测 多 少 个 时 间 步 长 ， 其 默认 值 设置 为 1， 即 系统 仅 做 
提前 一 步 的 预测 。 对 于 图 6.96 的 示例 ， 将 航空 公司 数据 的 预测 步 长 设 为 24， 每 月 预测 一 
次 ， 一 共 预 测 两 年 ， 而 对 于 图 6.97 葡萄 酒 数据 ， 将 它 设置 为 12， 每 月 预测 一 次 ， 一 共 预 
测 一 年 。 步 长 单位 应 该 与 已 知 数据 的 周期 性 相对 应 ， 例 如 ， 以 天 为 基础 记录 的 数据 其 时 间 
单位 为 天 。 

(2) 时 间 截 

第 二 个 参数 是 Time stamp( 时 间 戳 ) 下 拉 框 。 如 果 系 统 检测 有 时 间 字 段 ， 则 允许 用 户 选 
择 数 据 集 中 可 能 的 时 间 惟 字段。 如 果 数 据 中 有 一 个 日 期 字段 ， 系 统 会 自动 选择 该 字段 。 如 
果 数 据 中 不 存在 日 期 字段 ， 则 自动 选择 Use an artificial time index( 使 用 人 工时 间 索 引 ) 选 
项 。 用 户 可 以 手动 选择 时 间 戳 ， 如 果 时 间 戳 是 一 个 非 日 期 型 的 数字 字段 ， 用 户 也 必须 手动 
选择 ， 因 为 系统 无 法 从 潜在 的 目标 字段 中 进行 区 分 。 用 户 也 可 以 选择 从 下 拉 列 表 框 中 选择 
None( 无 )， 以 告诉 系统 没有 人 工 产生 的 或 其 他 方式 的 时 间 戳 可 供 使 用 。 

(3) 周期 性 

时 间 戳 下 拉 框 下 面 有 一 个 Periodicity( 周 期 性 ) 下 拉 框 ， 允 许 用 户 指定 数据 的 周期 性 。 如 
果 日 期 字段 已 经 选 定 为 时 间 戳 ， 那 么 可 以 让 系统 使 用 启发 式 算法 来 自动 检测 周期 性 ， 即 如 
果 系 统 初始 时 就 找到 并 设置 日 期 属性 作为 时 间 惟 ， 就 设置 Detect automatically( 自 动 检测 ) 为 
默认 值 。 如 果 时 间 戳 不 是 日 期 ， 那 么 用 户 可 以 明确 告诉 系统 的 周期 性 是 哪 一 个 ， 或 者 ， 如 
果 不 知道 就 选择 Unknown( 未 知 )。 周 期 性 用 于 为 创建 滞后 变量 而 设置 合理 的 默认 值 ， 参 见 
下 文 “2. 高 级 配置 ”的 部 分 。 在 时 间 惟 为 日 期 的 情形 下 ， 周 期 性 也 可 用 于 创建 日 期 派生 字 
段 的 默认 集合 。 例 如 ， 对 于 每 月 的 周期 性 ， 将 自动 创建 年 度 的 月 份 和 季度 字段 。 


酒 岂 站 巴山 9 小 和 


@« 


@« 


数据 挖掘 与 机 器 学 习 
一 一 WEKA 应 用 技术 与 过 到 \ 


(4) 跳 过 列表 

周期 性 下 拉 框 之 下 有 一 个 Skip list( 跳 过 列表 ) 字 段 ， 人 允许 用 户 指定 要 忽略 的 时 间 段 ， 该 
时 间 段 在 建 模 、 预 测 和 可 视 化 过 程 中 不 计 为 时 间 戳 增 量 。 例 如 ， 考 虑 某 只 股票 的 每 日 交易 
数据 ， 在 周末 及 公众 假期 内 交易 休市 ， 因 此 这 些 时 间 段 不 应 计 为 增 量 ， 并 且 其 差 值 也 要 相 
应 调整 ， 例 如 ， 市 场 自 上 周 五 收盘 到 下 周一 开盘 之 间 是 一 个 单位 时 间 ， 而 不 能 计 为 三 个 ， 
因为 周末 收市 。 由 于 自动 检测 周期 性 的 启发 式 算法 无 法 处 理 这 些 数 据 中 的 “ 洞 ”， 因 此 用 
户 必须 指定 使 用 的 周期 性 ， 并 在 跳 过 列表 文本 字段 中 提供 不 计 为 增 量 的 时 间 段 。 

跳 过 列表 字段 可 以 接受 很 多 种 类 的 字符 串 ， 如 weekend( 周 末 )、sat( 星 期 六 )、 
tuesday( 星 期 二 )、mar( 三 月 ) 和 october( 十 月 )， 还 可 以 是 具体 日 期 加 上 可 选 的 日 期 格式 字符 
串 ， 如 2013-04-01@yyyy-MM-dd， 以 及 一 个 整数 ， 整 数 的 含义 取决 于 指定 的 周期 性 有 不 同 
的 解释 。 例 如 ， 对 于 日 数据 的 一 个 整数 将 解释 为 一 年 中 的 第 几 天 ; 对 于 小 时 数据 将 解释 为 一 
天 中 的 第 几 个 小 时 ， 对 于 月 数据 将 解释 为 一 年 中 的 第 几 个 月 。 对 于 具体 的 日 期 ， 系 统 有 一 个 
默认 的 格式 化 字符 串 一 一 yyyy-MM-dd'T'HH:mm:ss， 用 户 也 可 以 指定 一 个 使 用 @<Format> 
作 后 级 的 日 期 。 如 果 列 表 中 的 所 有 日 期 的 格式 都 相同 ， 那 么 只 需 对 列表 中 的 第 一 个 日 期 指 
定 一 次 ， 以 后 的 日 期 列表 中 都 使 用 该 默认 格式 。 

图 6.98 展示 了 2011 年 苹果 电脑 股票 走势 预测 设置 的 例子 ，appleStocks2011 数据 文件 
可 以 在 timeseriesForecasting 包 的 sample-data 目录 中 找到 。 该 文件 包含 苹果 电脑 股票 自 
2011 年 1 月 3 日 至 2011 年 8 月 10 日 的 数据 ,包括 每 天 的 最 高 价 、 最 低 价 、 开 盘 价 和 收盘 
价 ， 其 数据 通过 雅虎 财经 获得 。 本 例 已 经 设置 预测 5 天 的 每 日 收盘 价 ， 设 置 周期 性 为 
Daily， 并 提供 跳 过 列表 以 忽略 周末 和 公共 假期 ， 跳 过 列表 如 下 : 


weekend, 2011-01-17@yyyy-MM-dd, 2011-02-21, 2011-04-22, 2011-05-30, 2011-07-04 


6.98 2011 年 苹果 电脑 股票 走势 预测 设置 


请 注意 ， 跳 过 列表 不 但 要 包括 已 知 数据 的 时 间 段 ， 而 且 一 定 要 包括 要 进行 预测 的 未 来 
时 间 内 需要 跳 过 的 时 间 段 ， 包 括 公众 假期 以 及 不 能 计 入 为 增 量 的 任何 其 他 日 期 。 

(5) 置信 区 间 

在 时 间 戳 下 拉 列 表 框 之 下 有 一 个 Confidence intervals( 置 信 区 间 ) 复 选 框 和 Level( 水 平 ) 文 
本 字段 ， 用 户 可 以 选择 让 系统 计算 其 预测 的 置信 边界 ， 默 认 的 置信 水 平 为 95%。 系 统 采用 
训练 数据 中 已 知 目标 值 来 设 定 预 测 的 置信 边界 。 因 此 ， 置 信 水 平 为 95% 意 味 着 为 真 的 目标 
值 落 在 95% 的 区 间 内 。 请 注意 ， 每 个 提前 步 数 都 独立 计算 其 置信 区 间 ， 即 所 有 的 对 训练 数 
据 提前 一 步 的 预测 都 用 来 计算 提前 一 步 的 置信 区 间 ， 所 有 的 提前 两 步 的 预测 都 用 于 计算 提 
前 两 步 的 置信 区 间 ， 等 等 。 


(6) 执行 评估 

默认 情况 下 ， 设 置 系统 是 为 了 学 习 预 测 模型 ， 并 对 训练 数据 结束 之 后 的 数据 进行 预 
测 。 选 中 Perform evaluation( 执 行 评估 ) 复 选 框 告诉 系统 使 用 训练 数据 对 预测 器 进行 评估 。 
也 就 是 说 ， 一 旦 预测 器 已 经 完成 数据 训练 ， 就 一 步 步 按 顺 序 对 各 时 间 点 的 数据 做 出 预测 。 
使 用 各 种 指标 对 这 些 预测 进行 收集 和 归纳 ， 对 每 个 未 来 的 时 间 步 长 预测 ， 即 收集 和 归纳 所 
有 提前 一 步 预测 ， 收 集 和 归纳 所 有 的 提前 两 步 预测 ， 等 等 。 这 使 用 户 能 够 在 一 定 程度 上 看 
到 ， 与 短期 时 间 比 较 如 何 预 测 较 长 远 的 时 间 。 高 级 配置 面板 允许 用 户 对 配置 进行 微调 ， 如 
选择 哪些 度量 进行 计算 ， 是 否 从 训练 数据 保留 一 些 数据 作为 单独 的 测试 集 。 

3) 输出 

基本 配置 面板 设置 生成 的 输出 包括 三 个 部 分 ， 即 训练 评估 ， 训 练 数据 结束 之 后 预测 值 
的 图 形 ， 以 文本 形式 的 预测 值 以 及 完成 学 习 模型 的 文字 说 明 。 图 6.99 所 示 为 完成 航空 公司 
数据 学 习 后 得 到 的 模型 。 默 认 情况 下 ， 时 间 序 列 环境 配置 为 线性 模型 学 习 ， 准 确 地 说 是 线 
性 支持 向 量 机 。 高 级 配置 面板 的 输出 有 更 多 的 选项 ， 并 且 可 以 完全 控制 底层 模型 的 学 习 以 
及 可 用 参数 。 


图 6.99 文本 输出 


图 6.99 左 部 有 一 个 Result list( 结 果 列表 ) 多 行 只 读 编 辑 框 ， 用 以 保存 时 间 序 列 分 析 的 结 
果 。 每 次 单 击 Start 按钮 启动 一 个 预测 分 析 ， 就 会 在 该 列表 中 创建 一 个 条 目 。 所 有 的 文本 输 
出 以 及 与 分 析 运 行 关联 的 图 表 都 存储 在 列表 的 各 自 条 目 中 ， 存 储 在 列表 中 的 还 有 预测 模型 
本 身 。 在 列表 中 的 条 目 上 右 击 ， 弹 出 上 下 文 菜单 一 共有 六 个 菜单 项 ， 从 上 到 下 分 别 为 View 
in main window( 在 主 窗 口中 查看 )、View in separate window( 在 单独 的 窗口 中 查看 )、Delete 
result( 删 除 结果 )、Save forecasting model( 保 存 预 测 模型 )、Load forecasting model( 加 载 预 测 
模型 )、Re-evaluate model( 重 新 评估 模型 )， 注 意 到 如 果 在 启动 学 习 前 没有 选中 执行 评估 复 
选 框 ， 重 新 评估 模型 菜单 项 就 变 灰 而 不 可 用 。 选 择 保存 预测 模型 菜单 项 ， 可 以 将 模型 导出 
到 磁盘 文件 ， 选 择 加 载 预测 模型 菜单 项 ， 可 以 将 保存 的 模型 加 载 到 内 存 。 

要 认识 到 ， 当 保存 模型 时 ， 所 保存 的 模型 是 建立 在 训练 数据 之 上 的 ， 对 应 于 历史 记录 
列表 中 的 条 目 。 如 果 要 对 把 其 中 的 一 部 分 数据 拿 出 来 作为 单独 测试 集 的 方案 进行 评估 ， 那 
么 所 保存 的 模型 只 是 对 现 有 的 部 分 数据 进行 训练 。 因 此 ， 建 议 在 保存 模型 前 关闭 评估 选 
项 ， 对 全 部 可 用 数据 构建 模型 。 

2. 高 级 配置 

高 级 配置 面板 为 用 户 提供 在 某 些 方面 的 预测 分 析 的 完全 控制 权 。 这 些 包 括 选 择 底层 模 
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型 和 参数 ， 创 建 滞后 变量 ， 创 建 日 期 时 间 戳 派生 的 变量 ， 指 定 “ 重 三 ”数据 ， 评 估 选 项 以 
及 控制 输出 的 内 容 。 其 中 每 一 项 在 高 级 配置 都 对 应 一 个 专门 的 子 面板 ， 下 面 详 细 讨论 这 些 
内 容 。 

1) 基本 学 习 器 

基本 学 习 者 子 面板 可 以 控制 用 于 对 时 间 序 列 建 模 的 Weka 学 习 算法 ， 它 也 允许 用 户 定 
制 所 选择 的 特定 学 习 算法 的 参数 ， 如 图 6.100 所 示 。 


es, aeti ons spp Wector MnOTvgr ored -LO O01 -1 -了 102- 0 O01 


图 6.100 基本 学 习 器 面板 


分 析 环 境 的 默认 配置 为 使 用 线性 支持 向 量 机 回归 算法 ， 这 是 Weka 的 SMOreg 算法 。 
也 可 以 选择 其 他 算法 ， 只 需 单 击 Choose 按钮 ， 选 择 另 一 种 能 够 预测 数值 数量 算法 即 可 ， 
如 图 6.101 所 示 。 
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6.101 选择 其 他 算法 


单 击 Choose 按钮 右 侧 的 文本 框 ， 可 以 打开 通用 对 象 编辑 器 对 话 框 ， 以 调整 所 选择 的 
学 习 算 法 的 参数 ， 如 图 6.102 所 示 。SMOreg 实现 支持 向 量 机 的 回归 算法 ， 可 以 使 用 各 种 
算法 学 习 参 数 ， 通 过 设置 RegOptimizer 选项 选择 算法 。 其 中 ，c 选项 为 复杂 度 参数 C; 
debug 选项 如 果 设 置 为 true， 分 类 器 可 以 输出 额外 信息 到 控制 台 ; filterType 选项 确定 是 否 
以 及 如 何 转换 数据 ， 可 用 选项 有 Normalize training data( 规 范 化 训练 数据 )、Standardize 
training data( 标 准 化 训练 数据 ) 和 No normmalize/standardize( 不 进行 规范 化 和 标准 化 );， kemel 
选项 为 所 使 用 的 核 ，regOptimizer 选项 为 学 习 算法 ， 最 著名 的 算法 是 RegSMOImproved。 
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6.102 ”修改 算法 参数 


2) 沾 后 创建 

Lag creation( 滞 后 创建 ) 子 面板 允许 用 户 控制 及 操纵 如 何 建立 滞后 变量 。 滞 后 变量 是 一 
种 将 某 个 序列 的 过 去 值 与 当前 值 之 间 进 行 关联 的 主要 机 制 ， 这 种 关联 关系 能 够 为 建议 的 学 
习 算 法 所 捕获 ， 滞 后 变量 创建 在 一 段 时 间 内 的 “窗口 ”或 “快照 ”。 从 本 质 上 讲 ， 创 建 的 
滞后 变量 的 数量 决定 窗口 的 大 小 。 在 基本 配置 面板 中 使 用 Periodicity( 周 期 性 ) 参 数 来 设置 创 
建 (决定 窗口 大 小 的 ) 滞 后 变量 数量 的 合理 默认 值 。 例 如 ， 如 果 有 每 月 的 销售 数据 ， 那 么 ， 
将 滞后 设置 为 过 去 最 多 为 12 个 时 间 步 长 才 有 意义 ;如 果 是 小 时 级 别 的 数据 ， 则 将 滞后 设 
置 为 24 个 或 者 12 个 时 间 步 长 才 有 意义 。 

滞后 创建 子 面板 左 部 有 一 个 名 称 为 Lag length( 滞 后 长 度 ) 的 子 面板 ， 其 中 包含 用 于 设置 
和 微调 滞后 长 度 的 控件 。 子 面板 的 顶部 有 一 个 Adjust for variance( 调 整 方差 ) 复 选 枉 ， 人 允许 
用 户 选 择 让 系统 补偿 数据 方差 。 为 此 ， 它 在 创建 滞后 变量 之 前 选取 每 个 目标 的 滞后 并 构建 
模型 。 如 果 方 差 (数据 “跳动 ”的 幅度 ) 随 时 间 进 程 而 增加 或 减少 ， 这 可 能 很 有 用 。 调 整 方 
差 可 能 会 也 可 能 不 会 提高 性 能 。 最 好 是 通过 试验 ， 看 它 是 否 有 助 于 手头 数据 与 参数 的 组 合 
选择 。 调 整 方差 复 选 框 之 下 有 一 个 Use custom lag lengths( 使 用 自 定 义 的 滞后 长 度 ) 复 选 框 ， 
允许 用 户 更 改 在 基本 配置 面板 中 设 定 的 默认 滞后 长 度 。 请 注意 : 显示 的 数字 长 度 不 一 定 是 
所 使 用 的 默认 值 ， 如 果 用 户 已 经 在 基本 配置 面板 的 周期 性 下 拉 框 中 选择 “<Detect 
automatically> ”选项 ， 那 么 实际 的 默认 滞后 长 度 要 在 运行 时 刻 对 数据 分 析 时 才 会 设置 。 
Minimum lag( 最 小 滞后 ) 文 本 字段 允许 用 户 指 定 创 建 滞 后 字段 前 向 时 间 步 的 最 小 值 ， 例 如 ， 
值 1 表示 创建 一 个 滞后 变量 ， 保 持 时 刻 -1 的 目标 值 。Maximum lag( 最 大 滞后 ) 文 本 字段 指 
定 创建 滞后 变量 前 向 时 间 步 的 最 大 值 ， 例 如 ，12 表示 创建 一 个 滞后 变量 值 ， 保 持 时 刻 -12 
的 目标 值 。 所 有 在 滞后 的 最 小 值 和 最 大 值 之 间 的 时 间 段 都 会 转换 为 滞后 变量 。 通 过 在 Fine 
tune lag selection( 微 调 滞后 选择 ) 文 本 字段 中 输入 一 个 范围 ， 可 以 对 最 小 值 和 最 大 值 之 间 创 
建 的 变量 进行 微调 。 图 6.103 的 数据 集 为 每 周 数据 ， 所 以 选择 将 滞后 的 最 小 值 和 最 大 值 分 
别 设置 为 1 和 52( 每 年 52 周 )。 在 此 ， 选 择 只 创建 1 一 26 和 52 的 滞后 。 

在 滞后 创建 子 面板 的 右 部 有 一 个 称 为 Averaging( 平 均 ) 的 子 面板 。 选 择 Average 
consecutive long lags( 平 均 连续 长 滞后 ) 复 选 框 ， 通 过 对 几 个 在 时 间 上 连续 的 变量 值 求 平均 
值 ， 使 滞后 变量 的 数目 减少 。 当 用 户 希望 数据 窗口 很 大 ， 但 没有 大 量 的 历史 数据 点 时 ， 这 
可 能 很 有 用 。 一 条 经 验 法 则 是 数据 行 数 应 该 至 少 是 字段 数 的 10 倍 以 上 ， 但 也 有 例外 ， 这 
取决 于 学 习 算 法 ， 例 如 ， 支 持 向 量 机 可 以 在 字段 数 比 行 数 更 多 的 情况 下 工作 得 更 好 。 对 多 
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个 连续 滞后 变量 进行 平均 ， 缩 减 为 单个 字段 ， 减 少 了 输入 字段 数目 且 ( 至 少 对 长 滞后 而 言 ) 
可 能 的 信息 损失 最 小 。Average lags longer than( 平 均 滞后 时 间 长 于 ) 文 本 字段 允许 用 户 指定 
何 时 启动 求 平均 过 程 。 例 如 ， 图 6.103 中 ， 该 参数 设置 为 2， 表 示 时 刻 -1 和 时 刻 -2 滞后 变 
量 将 保持 不 变 ， 而 时 刻 -3 及 以 上 时 将 替换 为 平均 值 。# consecutive lags to average( 求 平均 的 
连续 滞后 数量 ) 控 制 每 个 求 平均 的 组 中 有 多 少 个 滞后 变量 。 例 如 ， 上 图 中 也 设 定 为 2， 表 示 
时 刻 -3 和 时 刻 -4 将 求 平均 以 形成 一 个 新 的 字段 ， 时 刻 -5 和 时 刻 -6 将 求 平均 以 形成 一 个 新 
的 字段 ， 等 等 。 请 注意 ， 只 有 连续 滞后 变量 才能 求 平 均 ， 因 此 ， 上 例 中 ， 已 经 选择 滞后 
1 一 26 和 52 对 滞后 创建 进行 微调 ， 时 刻 -26 不 能 与 时 刻 -52 求 平 均 ， 因 为 它们 不 连续 。 


6.103 ”滞后 创建 面板 


3) 周期 性 属性 

Periodic attributes( 周 期 性 属性 ) 子 面板 允许 用 户 自 定义 创建 日 期 派生 的 周期 性 属性 。 该 
功能 仅 当 数据 中 包含 日 期 时 间 戳 时 才 可 用 。 如 果 时 间 戳 是 日 期 ， 则 自动 设置 一 些 默认 值 (由 
基本 配置 面板 Periodicity 设置 决定 )。 例 如 ， 如 果 数 据 为 月 度 时 间 间 隔 ， 则 数据 中 将 包含 
month of the year( 一 年 中 的 月 度 ) 和 quarter( 季 度 ) 作 为 变量 。 用 户 可 以 选中 Customize( 自 定义 ) 
复 选 框 ， 然 后 可 以 禁用 、 选 择 和 创建 新 的 自 定义 日 期 派生 变量 。 选 中 复 选 框 ， 会 显示 一 组 
预定 义 变量 供用 户 选 择 ， 如 图 6.104 所 示 。 


图 6.104 周期 性 属性 面板 


如 果 不 选中 任意 默认 变量 ， 其 结果 是 不 创建 日 期 派生 的 变量 。 除 预定 义 的 默认 值 之 
外 ， 还 可 以 创建 自 定义 的 日 期 派生 变量 。 单 击 New( 新 建 ) 按 钮 可 以 根据 规则 创建 一 个 新 的 
自 定义 日 期 派生 变量 ， 如 图 6.105 所 示 。 

本 例 创建 一 个 称 为 MayDayBreak( 五 一 长 假 ) 的 自 定义 日 期 派生 变量 ， 由 单个 的 基于 日 
期 的 测试 (test) 组 成 ， 在 对 话 框 的 底部 可 以 看 到 其 表达 式 。 该 变量 为 布尔 型 ， 当 日 期 在 5 月 
1 日 至 5 月 10 日 内 其 值 为 1。 还 可 以 添加 额外 的 测试 ， 以 便 评估 多 个 不 连续 的 时 间 段 。 


6.105 自 定义 周期 性 字段 编辑 对 话 框 


Field name( 字 段 名 称 ) 文 本 字段 允许 用 户 为 新 的 变量 取 名 ， 其 下 有 两 个 按钮 ，New( 新 建 ) 
按钮 为 规则 添加 新 测试 ，Delete( 删 除 ) 按 钮 从 底部 列表 中 删除 当前 选 定 的 测试 。 当 在 列表 中 
选择 一 个 测试 ， 会 将 测试 的 值 显示 在 窗口 中 部 Test interval( 测 试 间隔 ) 子 面板 的 上 限 和 下 限 
下 拉 列 表 框 中 ， 如 图 6.105 所 示 。 每 个 下 拉 列 表 框 中 可 编辑 一 个 边界 元 素 ， 从 左 至 右 的 下 
拉 列 表 框 为 : 比较 操作 符 、 年 、 月 、 年 的 第 几 周 、 月 的 第 几 周 、 年 的 第 几 天 、 月 的 第 几 
天 、 星 期 几 、 天 的 第 几 小 时 、 分 钟 和 秒 。 当 鼠标 悬 停 在 每 个 下 拉 列 表 框 中 ， 会 显示 工具 提 
示 说 明 提供 的 功能 。 每 个 下 拉 列 表 框 中 包含 该 元 素 所 绑 定 的 合法 值 ， 支 持 通配符 ， 如 
“*” 字 符 匹配 任意 条 件 。 

测试 间隔 子 面板 之 下 是 一 个 Label( 标 签 ) 文 本 字段 ， 允 许 使 用 字符 串 标签 与 规则 中 的 每 
个 测试 间隔 相关 联 。 规 则 中 的 所 有 间隔 要 么 都 有 一 个 标签 ， 要 么 都 没有 ， 不 能 一 些 间 隔 有 
标签 而 另 一 些 没 有 ， 和 否则 会 产生 错误 。 如 果 所 有 时 间 间 隔 都 有 标签 ， 则 通常 将 自 定 义 字段 
的 值 设置 为 与 规则 相关 ， 而 不 只 是 0 或 1。 规 则 评估 处 理 为 列表 ， 即 从 上 到 下 ， 第 一 个 评 
估 为 true 的 间隔 将 用 于 设置 字段 的 值 。 默 认 标签 ( 即 如 果 没 有 其 他 测试 间隔 匹配 而 分 配 的 标 
签 ) 可 以 通过 使 用 通配符 对 列表 中 的 最 后 一 个 测试 间隔 来 进行 设置 。 在 所 有 间隔 都 有 标签 的 
情况 下 ， 且 如 果 没 有 “笼统 ”的 默认 设置 ， 则 没有 间隔 匹配 的 自 定义 字段 的 值 将 设置 为 缺 
失 。 这 与 不 使 用 标签 ， 且 字段 为 二 元 标志 的 情况 不 同 ， 在 这 种 情况 下 ， 间 隔 不 能 匹配 将 导 
致 自 定义 字段 的 值 设置 为 0。 

4) 重 县 数据 

Overlay data( 重 登 数据 ) 子 面板 允许 用 户 指 定 应 该 视 为 “重合 ”数据 的 字段 ， 如 果 有 的 
话 ， 默 认 设置 为 不 使 用 重合 数据 。“ 重 又 ”数据 的 意思 是 ， 将 这 些 输 入 字段 认为 是 数据 转 
换 和 闭环 预测 过 程 的 外 部 数据 ， 即 ， 这 些 不 进行 预测 的 数据 不 能 自动 派生 ， 且 要 为 所 预测 
的 未 来 时 期 持续 提供 这 些 数据 。 在 图 6.106 中 ， 加 载 澳大利亚 葡萄 酒 数据 到 系统 中 ， 且 选 
定 Fortified( 强 化 ) 为 预测 目标 。 通 过 选中 Use overlay data( 使 用 重合 数据 ) 复 选 框 ， 系 统 显 示 
数据 中 没有 选中 为 目标 或 时 间 戳 的 其 他 字段 ， 这 些 字 段 都 可 用 作 重 县 数据 。 

系统 将 使 用 所 选 的 重 又 字段 作为 模型 的 输入 。 通 过 这 种 方式 ， 模 型 才 有 可 能 考虑 一 些 
特殊 的 历史 条 件 ( 如 股市 崩溃 ) 及 其 在 未 来 已 知 点 将 发 生 因 素 (如 历史 上 已 发 生 的 非常 规 的 促 
销 活动 ， 以 及 将 来 的 促销 计划 )。 这 样 的 变量 通常 在 时 间 序 列 文献 中 称 为 intervention 
variables( 干 预 变量 )。 
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6.106 重 友 数据 面板 


当 执 行使 用 覆盖 数据 的 分 析 ， 系 统 可 能 会 报告 说 它 无 法 在 数据 结束 之 后 生成 预测 。 这 
是 因为 没有 提供 时 间 区 间 所 要 求 的 覆盖 字段 的 值 ， 因 此 模型 无 法 为 选 定 的 目标 产生 预测 。 
需要 注意 的 是 ， 可 以 就 训练 数据 以 及 训练 数据 尾部 的 留存 数据 对 模型 进行 评估 ， 因 为 这 些 
数据 的 确 已 经 包含 了 重 倒 字段 的 值 。 

5) 评估 

Evaluation( 评 估 ) 子 面板 允许 用 户 选择 希望 的 评估 指标 ， 并 配置 是 否 使 用 训练 数据 以 及 
从 训练 数据 尾部 的 留存 数据 进行 评估 。 在 基本 配置 面板 中 选择 Perform evaluation( 执 行 评估 ) 
复 选 框 与 在 这 里 选择 Evaluate on training( 评 估 训 练 ) 复 选 框 的 效果 相同 。 默 认 情况 下 ， 将 计 
算 预测 的 平均 绝对 误差 (MAE) 和 均 方 根 误差 (RMSE)， 如 图 6.107 所 示 。 用 户 可 以 在 
Metrics( 度 量 ) 子 面板 中 选择 用 于 计算 的 度量 ， 可 用 的 度量 如 下 。 

(1) 平均 绝对 误差 (MAE): sum(abs(predicted - actuaD)) /1N。 

(2) 均 方 误差 (MSE): sum((predicted - actual)^2)/N。 

(3) 均 方 根 误差 (RMSE): sqrt(sum((predicted - actual)^2) / N)。 

(4) 平均 绝对 百分比 误差 (MAPE): sum(abs((predicted - actual) / actuaD)) /1N。 

(5) 方向 精度 (DAC): ”count(sign(actual_current - actual previous) 一 sign(pred_current - 


pred_previous)) /N。 

(6) 相对 绝对 误差 (RAE): sum(abs(predicted - actual)) / sum(abs(previous target - 
actual))。 

(7) 相对 方 根 误差 (RRSE): sqrt(sum((predicted - actual)^2) / N) / sqrt(sum(previous_target 
-actual)^2) /N)。 


6.107 评估 面板 


相对 度量 给 出 ， 相 对 于 只 使 用 最 后 一 个 已 知 目标 值 的 预测 ， 预 测 器 预测 的 性 能 如 何 。 
这 些 度量 以 百分比 表示 ， 并 表明 ， 较 低 值 的 预测 值 是 更 好 的 预测 比 只 使 用 的 最 后 一 个 已 知 
的 目标 值 。 得 分 > = 100 表明 预测 器 不 能 比 预测 最 后 一 个 已 知 目标 值 做 得 更 好 (或 更 糟 )。 需 


@ 


要 注意 的 是 : 最 后 已 知 目标 值 是 相对 于 做 出 预测 的 步 又。 例如 ， 提 前 12 步 预测 是 相对 于 
使 用 前 面 12 个 时 间 步 长 目标 值 作为 预测 进行 比较 的 ， 因 为 这 是 最 后 一 个 “已 知 ”的 实际 
目标 值 。 

Evaluate on held out training( 评 估 留 存 训练 ) 复 选 框 右边 有 一 个 文本 字段 ， 允 许 用 户 选 择 
自 系列 结束 起 留存 多 少 训练 数据 ， 以 形成 独立 测试 集 。 这 里 输入 的 数值 既 可 以 表示 绝对 的 
行 数 ， 也 可 以 表示 训练 数据 的 一 部 分 (表示 为 0 一 1 之 间 的 小 数 )。 

6) 输出 

Output( 输 出 ) 子 面板 提供 了 控制 系统 产生 的 文本 和 图 形 输出 的 选项 ， 面 板 分 成 两 个 部 
分 : Output options( 输 出 选项 ) 和 Graphing options( 图 形 选项 )。 前 者 控制 环境 中 显示 在 主 输 
出 区 域 的 文本 输出 ， 后 者 则 控制 图 表 的 生成 ， 如 图 6.108 所 示 。 
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6.108 ”输出 面板 
在 输出 面板 中 选中 Output predictions at step( 在 …… 时 间 步 输出 预测 ) 复 选 框 会 使 系统 对 


单个 目标 的 每 一 步 都 输出 实际 值 和 预测 值 ， 也 输出 错误 。 

选中 Output future predictions beyond the end of series( 输 出 系列 之 后 对 将 来 的 预测 ) 复 选 
框 会 使 系统 在 数据 结束 后 ， 输 出 训练 数据 和 预测 器 预测 所 有 目标 的 预测 值 (直至 时 间 单 位 的 
最 大 数值 )。 预 测 值 都 以 “*” 号 标示 ， 以 明确 训练 值 和 预测 值 之 间 的 边界 。 

在 面板 中 的 Graphing options( 图 形 选 项 ) 区 域 ， 用 户 可 以 选择 系统 生成 哪 种 图 形 。 与 文 
本 输出 相似 ， 选 中 Graph predictions at step( 在 …… 时 间 步 的 图 形 预测 ) 复 选 框 ， 特 定时 间 步 
的 预测 可 以 以 图 形 方式 显示 。 不 同 于 文本 输出 ， 将 绘制 预测 器 预测 的 所 有 目标 。 选 择 
Graph target at steps( 在 …… 时 间 步 的 图 形 目标 ) 复 选 框 ， 允 许 绘制 单个 目标 的 多 个 时 间 步 。 
例如 ， 对 于 同一 目标 ， 生 成 的 图 形 可 以 表示 提前 1 步 、 提 前 2 步 和 提前 2 步 的 预测 。 当 选 
中 Graph target at steps( 在 …… 时 间 步 的 图 形 目 标 ) 复 选 框 后 ，Target to graph( 目 标 图 ) 下 拉 框 
和 Steps to graph( 步 又 图 ) 文 本 字段 变 得 可 用 。 


6.4.2 手把手 教 你 用 


1. 使 用 基本 配置 
在 使 用 基本 配置 之 前 ， 确 保 已 经 安装 了 时 间 序 列 建 模 环境 ， 安 装 方式 可 参见 第 1 章 的 
包 管 理 器 内 容 。 


启动 Weka 探索 者 界面 ， 单 击 Open file... 按 钮 ， 导 航 至 Weka 安装 包 位 置 。 本 书 使 用 
Win 7 操作 系统 ， 其 目录 为 C:\Users\computermame\wekafiles\packages\， 请 读者 自行 用 自己 
的 计算 机 名 称 蔡 换 computemame。 在 该 目录 下 ， 继 续 导 航 至 timeseriesForecasting\sample- 
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data 子 目 录 ， 可 以 看 到 目录 里 有 三 个 数据 集 文件 。 选 择 appleStocks2011.arff 文件 ， 然 后 单 
击 “ 打 开 ” 按 钮 加 载 2011 年 苹果 电脑 股票 数据 ， 加 载 后 的 窗口 如 图 6.109 所 示 。 


6.109 ”加 载 苹果 电脑 股票 数据 


可 以 看 到 一 共有 7 个 属性 ， 包 括 : 日 期 (Date)、 开 盘 价 (Open)、 最 高 价 (High)、 最 低 价 
(Low)、 收 盘 价 (Close)、 平 均 成 交 量 (Avg Vol)， 以 及 调整 后 的 收盘 价 (Adj Close)。 单 击 Edit 
按钮 ， 打 开 Viewer 窗口 查看 具体 数据 ， 可 以 看 到 一 共有 153 个 样本 。 

单 击 Forecast 标签 页 切换 至 预测 面板 ， 保 持 基 本 配置 子 面板 不 变 。 首 先 在 数据 集中 选 
择 希 望 预测 目标 字段 ， 由 于 本 数据 集 有 多 个 目标 ， 必 须 手 动 选 择 目 标 。 股 票 一 天 中 最 为 重 
要 的 数据 是 收盘 价 ， 因 此 选中 Close 复 选 框 。 注 意 : 只 有 在 选择 目标 以 后 ，Start 按钮 才 变 
得 可 用 。 

然后 在 Number of time units to forecast 文本 框 中 输入 预测 的 时 间 单 位 数值 ， 这 里 输入 
5， 以 预测 5 天 股票 的 收盘 价 。 因 为 Time stamp 下 拉 框 已 经 正确 选择 了 Date 字段 作为 时 间 
改 ， 所 以 不 用 修改 。 现 在 看 Skip list 文本 框 ， 发 现 该 文本 框 不 可 用 ， 应 该 先 将 Periodicity 
下 拉 框 设 为 Daily， 然 后 在 跳 过 列表 中 输入 如 下 需要 跳 过 的 日 期 : 

weekend,2011-01-17@yyyy-MM-dd,2011-02-21.2011-04-22,2011-05-30,2011-07-04 

保持 其 他 选项 为 默认 值 ， 单 击 Start 按钮 启动 预测 学 习 ， 可 以 看 到 输出 区 域 输出 了 如 
图 6.110 所 示 的 文本 预测 信息 ， 并 且 在 结果 列表 中 添加 了 一 个 条 目 。 最 后 五 条 以 “*” 标 示 
的 数据 是 预测 的 收盘 价 ， 注 意 到 其 中 8 月 12 日 直接 就 跳 到 8 月 15 日 ， 这 是 因为 跳 过 列表 
中 设置 了 跳 过 周末 。 单 击 窗口 右 下 部 的 Train future pred.( 训 练 预测 将 来 ) 标 签 页 可 切换 至 图 
形 输出 。 

如 输出 6.1 所 示 ， 预 测 器 文本 输出 分 为 两 个 部 分 一 一 Run information( 运 行 信息 ) 和 Future 
predictions from end of training data( 自 训练 数据 结束 的 未 来 预测 )， 如 果 选 中 Perform 
evaluation 复 选 框 ， 输 出 还 会 包含 第 三 部 分 一 一 Evaluation on training data( 评 估 训 练 数据 )。 
其 中 ， 运 行 信息 包含 Scheme( 学 习 方案 ) 的 名 称 和 参数 、Lagged and derived variable 
options( 沾 后 和 派生 变量 选项 )、 数 据 集 简要 说 明 (关系 名 、 实 例 数 量 以 及 属性 数量 及 属性 
名 )、Transformed training data( 转 换 后 的 训练 数据 )、 预 测 目 标 (这 里 是 Close)、weights( 权 重 ) 
以 及 Number of kemel evaluations( 核 评估 数量 )。“ 自 训练 数据 结束 的 未 来 预测 ”以 表格 形 
式 展现 ， 第 一 列 为 时 间 (Time)， 第 二 列 为 预测 目标 (Close)， 表 格 行 分 为 两 个 部 分 ， 前 一 部 
分 为 训练 数据 ， 后 一 部 分 以 “*” 标 示 的 是 预测 数据 。 


图 6.110 ”预测 的 文本 输出 


输出 6.1 预测 器 的 输出 


一 = Run information 一 一 


Scheme : 
SMOreg -C 1.0 -N 0 -I "RegSMOImproved -L 0.001 -W 1 -P 1.0E-12 -T 0.001 - 


V" -K "PolyKernel -C 250007 -E 1.0" 


Lagged and derived variable options: 
-F [Close] -L 1 -M 7 -G Date -dayofweek -weekend -skip "weekend, 2011-01- 
17@yyyy-MM-dd, 2011-02-21, 2011-04-22, 2011-05-30, 2011-07-04" 


Relation: Applestocks 
Instances: 153 
Attributes: 7 

Date 

Open 

High 

Low 

Close 

Volume 

Adj Close 


Transformed training data: 


Date 

Close 
DayOfWeek 
Weekend 
Date-remapped 
Lag Close-1 
Lag Close-2 
Lag Close-3 
Lag Close-4 
Lag Close-5 
Lag Close-6 
Lag Close-7 
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— WW 


Date-remapped^2 

Date-remapped^3 

Date-remapped*Lag Close-1 
Date-remapped*Lag Close-2 
Date-remapped*Lag Close-3 
Date-remapped*Lag Close-4 
Date-remapped*Lag Close-5 
Date-remapped*Lag Close-6 
Date-remapped*Lag Close-7 


Close: 
SMOreg 


weights (not support Vectors) : 

* (normalized) DayOfWeek=sun 

重 村 < 人 ELO 人 2 去 

本 O02 私 

写 0.0076 * 

全 GOL72 去 
0.0037 * 


+ 0 


0 
0 


二 十 十 二 十 


天 


页 


0.0728 * 
0.8277 
0.1497 


这 0.0871 
Dt 0.0084 
+ 0.113 * (normalized) Lag Close-6 


大 
大 
O1202 * 
大 
大 


二 Li 5 


0.0468 * 
0.1824 * 


-> 0.1183 * 
= 0.1546 * 
4 0.0968 * 
= 0.0641 * 
= 0.0865 * 
二 O37 冯 
= 0.0871 * 
0.0653 


Number of kernel evaluations: 


(normalized) 
(normalized) 
(normalized) 
(normalized) 
(normalized) 


(normalized) 
(normalized) 
(normalized) 
(normalized) 
(normalized) 
(normalized) 


DayOfWeek=mon 
DayOfWeek=tue 
DayOfWeek=wed 
DayOfWeek=thu 
DayOfWeek=fri 


(normalized) DayOfWeek=sat 
(normalized) Weekend 


Date-remapped 
Lag Close-1 
Lag Close-2 
Lag Close-3 
Lag Close-4 
Lag Close-5 


(normalized) Lag Close-7 


(normalized) 
(normalized) 
(normalized) 
(normalized) 
(normalized) 
(normalized) 
(normalized) 
(normalized) 
(normalized) 


Date-remapped^2 

Date-remapped^3 

Date-remapped*Lag Close-1 
Date-remapped*Lag Close-2 
Date-remapped*Lag Close-3 
Date-remapped*Lag Close-4 
Date-remapped*Lag Close-5 
Date-remapped*Lag Close-6 
Date-remapped*Lag _ Close-7 


11781 (98.178% cached) 


一 =- Future predictions from end of training data 一 -一 


Time 

2011-01-03 
2011-01-04 
2011-01-05 
2011-01-06 


Close 
329.6 
331.3 


334 


333.7 


2011 08-09 374 

2011-08-10 363.7 

2011-08-11* 371.1259 

2011-08-12* 370.9934 

2011-08-15* 378.2286 

2011-08-16* 380.337 

2011-08-17* 387.4258 

现在 ， 选 中 Perform evaluation 复 选 框 ， 在 次 单 击 Start 按钮 启动 预测 学 习 ， 这 时 的 文 
本 输出 如 图 6.111 所 示 。 容 易 看 到 ， 这 时 所 输出 的 文本 数据 包含 了 以 二 维 表 的 形式 展现 的 
对 训练 数据 的 评估 ， 其 中 ， 列 为 提前 1 步 到 提前 5 步 的 目标 ， 行 自 上 而 下 分 别 为 N( 评 估 样 
本 数 )、 平 均 绝 对 误差 、 均 方 根 误差 。 

最 后 ， 在 结果 列表 中 选择 第 一 个 条 目 ， 使 用 鼠标 右 击 ， 选 择 保 存 预 测 模型 菜单 项 ， 将 
训练 后 的 模型 保存 到 磁盘 中 ， 以 便 将 来 使 用 。 

2. 使 用 高 级 配置 

本 示例 展示 如 何 使 用 高 级 配置 。 

在 探索 者 预 处 理 面 板 加 载 wine.arff 数据 文件 ， 单 击 Forecast 标签 页 切换 至 预测 面板 ， 
在 Target Selection 子 面板 中 ， 选 中 第 一 项 Fortified， 并 将 Number of time units to forcast 设 
置 为 12， 保 持 其 他 选项 为 默认 值 。 


6.111 选中 执行 评估 复 选 框 后 的 输出 


然后 ， 切 换 至 高 级 配置 子 面板 。 在 Base leamer 子 面板 中 单 击 Choose 按钮 ， 选 择 线性 
回归 LinearRegression 作为 基 学 习 器 ， 保 持 默认 设置 ， 单 击 Start 按钮 启动 预测 器 ， 预 测 结 
果 如 图 6.112 所 示 。 如 果 要 比较 不 同 基 学 习 器 的 性 能 ， 请 在 Evaluation 子 面板 中 选中 
Evaluate on training 复 选 框 ， 比 较 评 估 训 练 数据 的 度量 指标 。 
下 面 使 用 Lag creation 子 面板 。 首 先 检查 一 下 文字 输出 的 Transformed training data 部 
分 ， 可 以 看 到 如 下 的 12 个 滞后 变量 : 
Lag Fortified-1 
Lag Fortified-2 
Lag Fortified-3 
Lag Fortified-4 
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Lag Fortified-5 
Lag Fortified-6 
Lag Fortified-7 
Lag Fortified-8 
Lag Fortified-9 
Lag Fortified-10 
Lag Fortified-11 
Lag Fortified-12 
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图 6.112 LinearRegression 预测 输出 


如 果 要 定制 滞后 变量 ， 选 中 Use custom lag lengths 复 选 框 ， 然 后 按照 图 6.113 进行 
设置 。 


Mjust for veriancw 
加 Vee custon lag lmgths 
Wainm lag 1 二 
Waiem lag _ 12 二 


Fine tune lag selection1-6, 12 


图 6.113 ”定制 滞后 变量 


再 次 单 击 Start 按钮 启动 预测 ， 在 输出 中 可 以 看 到 Fortified 滞后 变量 已 经 从 原来 的 12 
个 减少 到 如 下 的 7 个 : 
Lag Fortified-1 
Lag Fortified-2 
Lag Fortified-3 
Lag Fortified-4 
Lag Fortified-5 
Lag Fortified-6 
Lag Fortified-12 


下 面 使 用 Periodic attributes 子 面板 。 假 如 认为 每 年 12 月 份 的 圣诞 节 对 酒 类 的 销售 影响 


较 大 ， 可 以 定制 一 个 名 称 为 Christmas 的 周期 性 字段 ， 如 图 6.114 所 示 ， 该 字段 会 影响 预测 
结果 。 
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6.114” 自 定义 周期 性 字段 


单 击 “ 确 定 ” 按 钮 完成 定制 。 这 时 ， 在 Date-derived periodic creation 子 面板 中 的 最 后 
一 行 会 显示 名 称 为 c_Christmas 的 周期 性 字段 ， 如 图 6.115 所 示 。 
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6.115 ”新 增 的 自 定义 字段 


再 次 单 击 Start 按钮 启动 预测 ， 在 输出 中 可 以 看 到 如 下 所 示 的 c_Christmas 变量 ， 该 变 
量 在 算法 中 会 参与 预测 计算 。 


Fortified 

Date 

© Christmas 
Date-remapped 
Lag Fortified-1 
Lag Fortified-2 


下 面 使 用 Overlay data 子 面板 。 选 中 Use overlay data 复 选 框 ， 系 统 显 示 可 用 作 重 肢 数 
据 的 字段 ， 选 中 Dry-white 条 目 作为 重 和 倒数 据 ， 如 前 文 的 图 6.106 所 示 。 然 后 单 击 Start 按 
钮 启动 预测 ， 很 不 幸 ， 系 统 会 弹出 如 图 6.116 所 示 的 错误 对 话 框 ， 指 示 由 于 没有 未 来 的 重 
倒数 据 因此 对 未 来 预测 。 


Forearingerel 区 本 
x) Unable to generate 2 future forecast beyond the end of the rear 
dete becouso there i mo tare overtey de eraisble 
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6.116 ”错误 对 话 框 


既然 系统 无 法 预测 未 来 ， 那 就 不 要 要 求 它 预测 未 来 就 行 了 。 切 换 至 Output 子 面板 ， 取 
消 选 中 最 下 面 的 两 个 复 选 框 ， 即 Output future predictions beyond end of series 和 Graph 
future predictions beyond end of series， 再 次 单 击 Start 按钮 ， 这 次 没有 错误 提示 ， 如 
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图 6.117 所 示 。 在 文本 输出 的 Transformed training data 部 分 ， 能 找到 Dry-white 作为 预测 模 
型 的 输入 字段 。 
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6.117 不 让 预测 器 预测 未 来 


因为 下 面 需 要 预测 未 来 ， 因 此 还 是 取消 使 用 重 肥 数据。 

下 面 使 用 Evaluation 子 面板 和 Output 子 面 板 。 默 认 选 中 MAE 和 RMSE 作为 评估 度 
量 ， 现 在 取消 这 两 项 选择 ， 另 外 选中 DAC， 再 次 单 击 Start 按钮 ， 输 出 的 Evaluation on test 
data 部 分 会 包含 Direction accuracy 度量 。 

Evaluation 面板 还 有 两 个 测试 选项 ， 选 中 Evaluate on training 和 Evaluate on held out 
training 复 选 框 ， 并 将 第 二 个 复 选 框 后 的 输入 框 里 的 0.3 更 改 为 20， 即 留存 20 条 记录 作为 
测试 。 确 保 选 中 Output 子 面板 中 的 Output predictions 复 选 框 ， 并 将 Step to output 后 的 数字 
更 改 为 5( 提 前 5 步 预测 )， 再 次 单 击 Start 按钮 ， 在 文本 输出 中 可 以 找到 如 下 文本 : 


一 = Predictions for training data: Fortified (5-steps ahead) === 


inst# actual predicted error 
¥7 4198 4081.7298 L62702 
18 4935 4409.9169 -525.0831 
了 9 5618 5498.6024 =119.3976 
167 2526 2433.3498 -92.6502 
168 合 2839.5097 时 
169 ?2 1198.5424 YA 
170 党 1470.235 学 
171 ? 1900.6859 a 


=== Predictions for test data: Fortified (5-steps ahead) —= 


inst# actual predicted error 
132 2659 2275.0313 =383.9687 
173 2354 2526.3002 172.3002 
187 3179 2871.5138 -307.4862 
188 学 2366.3488 要 
189 学 1913.8104 要 
190 2 1881.9506 ?2 
下 9 2 ZL69.7219 ?2 


上 面 的 输出 分 为 两 个 部 分 ， 第 一 部 分 是 Predictions for training data( 预 测 训练 数据 )， 第 
二 部 分 是 Predictions for test data( 预 测 测试 数据 )。 这 里 需要 注意 两 个 问题 ， 第 一 ， 由 于 前 面 
彰 定 留存 的 记录 数 为 20， 因 此 测试 数据 记录 的 编号 为 172 到 191， 共 20 条 记录 ; 第 二 ， 
输出 中 间 号 “?” 表 示 提 前 5 步 预 测 无 法 获取 的 数据 。 

在 Output 子 面板 中 ， 选 中 Graph target at steps 复 选 框 ， 确 保 Target to graph 下 拉 列 表 
框 为 Fortified， 在 Steps to graph 输入 框 中 输入 : 1-3.6.12， 即 图 示 提 前 1、2、3、6 和 12 步 
的 预测 结果 。 然 后 再 次 单 击 Start 按钮 ， 结 果 如 图 6.118 所 示 。 图 中 有 六 条 折线 ， 分 别 代表 
真实 值 、 提 前 1 步 预测 值 、 提 前 2 步 预测 值 、 提 前 3 步 预测 值 、 提 前 6 步 预测 值 和 提前 12 
步 预测 值 。 
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6.118 ”预测 结果 


6.1 什么 是 贝 叶 斯 网 络 ? 贝 叶 斯 网 络 带 来 什么 好 处 ? 

6.2 ” 贝 叶 斯 算法 假定 数据 集 必须 满足 什么 要 求 ? 

6.3 对 于 Weka 自 带 的 数据 集 ，iris 数据 集 可 以 使 用 哪 几 个 贝 叶 斯 分 类 器 ? 
ReutersCorn-train 和 glass 数据 集 呢 ? 

6.4 完成 6.2 神经 网 络 6.2.2 一 节 中 1. 图 形 界 面 编辑 操作 实验 。 

6.5 说 明 6.2 神经 网 络 中 ，Epoch、Momentum、Learning Rate 对 网 络 学 习 的 影响 。 

6.6 怎样 用 ROC 曲线 判断 一 个 模型 的 好 坏 ? 如 何 看 待 图 6.84 所 示 的 ROC 曲线 与 其 
他 指标 不 吻合 的 现象 ? 

6.7 滞后 变量 、 周 期 性 属性 、 重 受 数 据 这 些 字段 有 何 用 处 ? 
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诸如 探索 者 界面 、 命 令 行 等 图 形 化 工具 ， 在 大 多 数 情况 下 对 于 普通 用 
> 的 使 用 已 经 足够 。 但 Weka 功能 远 不 止 这 些 ， 它 还 明确 定义 了 应 用 程序 
高 程 接口 API， 这 使 得 它 很 容易 “嵌入 ”到 用 户 自己 的 应 用 项 目 中 。 本 章 
` 绍 如 何 使 用 Java 源 代码 来 实现 常见 数据 挖 振 任 务 的 基础 知识 。 
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7.1 加 载 数 据 


在 应 用 过 滤器 、 分 类 器 或 聚 类 器 之 前 ， 必 须 先 加 载 数 据 。Weka 能 让 用 户 加 载 多 种 文 
件 格式 的 数据 文件 ， 还 支持 从 数据 库 中 加 载 数 据 。 如 果 使 用 数据 库 ， 需 要 确保 已 经 正确 建 
立 了 JDBC 数据 库 连 接 ， 并 且 数 据 库 驱 动 程序 已 经 在 CLASSPATH 中 。 

如 下 三 个 Java 类 常用 于 在 内 存 中 存储 数据 。 

1) weka.core.Instances 类 

该 类 容纳 完整 的 数据 集 。 采 用 基于 行 的 数据 结构 ， 可 以 通过 调用 instance(int) 方 法 获取 
单个 行 ， 其 方法 参数 为 基于 0 的 行 索 引 ; 可 以 通过 调用 attribute(int) 方 法 进行 访问 列 信息 ， 
返回 weka.core.Attribute 对 象 。 

2) weka.core.Instance 类 

该 类 封装 单个 行 ， 基 本 上 是 一 个 原始 double 数组 的 包装 器 。 因 为 该 类 没有 包含 列 的 类 
型 信息 ， 所 以 总 是 需要 访问 weka.core.Instances 对 象 。 参 见 dataset 方法 和 setDataset 方 
法 ， 前 者 返回 本 实例 所 使 用 的 数据 集 ， 后 者 设置 数据 集 的 引用 。weka.core.SparseInstance 
类 用 于 稀 玲 数据 的 情形 ， 以 节约 存储 空间 。 

3) weka.core.Attribute 类 

该 类 容纳 数据 集中 的 单个 列 的 类 型 信息 。 它 存储 属性 的 类 型 ， 以 及 标 称 型 属性 的 标 
签 、 字 符 串 属性 的 可 能 值 ， 以 及 关系 属性 的 数据 集 (weka.core.Instances 对 象 )。 


7.1.1 从 文件 加 载 数据 


Weka 支持 多 种 数据 文件 格式 ， 其 格式 使 用 文件 扩展 名 来 区 分 。 从 文件 加 载 数据 时 ， 
如 果 文 件 使 用 正确 的 扩展 名 ， 可 以 让 Weka 根据 文件 的 扩展 名 来 选择 合适 的 加 载 器 ， 可 用 
的 加 载 器 都 放置 在 weka.core.converters 包 中 ; 不 管 文件 是 否 使 用 正确 的 扩展 名 ， 都 可 以 直 
接 指定 正确 的 加 载 器 。 如 果 文 件 没有 正确 的 扩展 名 ， 只 能 采用 后 一 种 方法 。 

DataSource( 数 据 源 ) 类 是 weka.core.converters.ConverterUtils 类 的 内 部 类 ， 用 于 从 有 适 
当 文件 扩展 名 的 文件 中 读 取 数据 。 例 如 : 


程序 清单 7.1 读 取 数 据 代码 片段 


Instances datal = DataSource.read("/some/where/dataset .arff"); 
Instances data2 = DataSource.read("/some/where/dataset .csv"); 
Instances data3 = DataSource.read("/some/where/dataset .xrff"); 


如 果 要 加 载 的 文件 与 加 载 器 通常 关联 的 文件 扩展 名 不 同时 ， 用 户 只 能 直接 指定 加 载 
器 。 下 面 的 示例 展示 如 何 加 载 CSV 文件 。 


程序 清单 7.2 加载 CSV 文件 代码 片段 


CSVLoader loader = new CSVLoader (); 
loader .setSource (new File("/some/where/some.data")); 
Instances data = loader.getDataset (); 


适 注意 :并 不 是 所 有 的 文件 格式 都 可 以 存储 类 别 属性 的 信息 .例如 ，ARFF 格式 不 能 
存储 类 别 属性 的 信息 ， 但 XRFF 格式 却 可 以 。 如 果 将 来 需要 使 用 分 类 器 或 其 
他 功能 ， 必 须 先 设置 类 别 属性 ， 可 以 调用 setClassIndex(int) 方 法 进行 设置 。 


程序 清单 7.3 设置 类 别 属性 代码 片段 


// 使 用 第 一 个 属性 作为 类 别 属性 
if (data.classIndex() 一 -1) 
data.setClassIndex (0); 


// 使 用 最 后 一 个 属性 作为 类 别 属性 
if (data.classIndex() 一 -1) 
data.setClassIndex (data.numAttributes() - 1); 


7.1.2 ”从 数据 库 加 载 数据 


从 数据 库 中 加 载 数据 ， 可 以 使 用 weka.experiment.InstanceQuery 类 或 者 
weka.core.converters.DatabaseLoader 类 。 两 者 的 区 别 是 : InstanceQuery 类 人 允许 用 户 检索 稀 
玖 数据 ， 而 DatabaseLoader 类 可 以 增 量 检索 数据 。 

使 用 InstanceQuery 类 的 示例 如 下 : 


程序 清单 7.4 使 用 InstanceQuery 


InstanceQuery query = new InstanceQuery (); 
query. setDatabaseURL ("jdbc url"); 
query.setUsername ("the User") 7 
query.setPassword ("the password"); 
query.setQuery ("select * from tableName"); 
// 如 果 数 据 是 稀 琉 的， 那么 可 以 使 用 下 一 条 语句 

// query.setSparseData (true) 

Instances data = query.retrieveInstances (); 


使 用 DatabaseLoader 类 进行 “批量 检索 ”的 示例 如 下 : 
程序 清单 7.5 ”批量 检索 


DatabaseLoader loader = new DatabaseLoader (); 
loader.setSource ("jdbc url", "the user", "the password"); 
loader .setQuery ("select * from tableName"); 

Instances data = loader.getDataset () 7 


使 用 DatabaseLoader 类 进行 “ 增 量 模式 ”的 示例 如 下 : 
程序 清单 7.6 增 量 检索 


DatabaseLoader loader = new DatabaseLoader (); 

loader .setSource ("jdbc url"™, "the user", "the password"); 
loader.setQuery ("select * from tableName"); 

// 可 能 需要 指定 那些 列 构成 主 关键 字 ， 调 用 setKeys 方法 

// loader.setKeys ("coll,col2,..."); 

Instances structure = loader.getstructure(); 
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Instances data = new Instances (Structure) 

Instance inst; 

while ((inst = Loader.getNextInstance (structure)) != null) 

data.add (inst); 

请 注意 ， 不 是 所 有 的 数据 库 系统 都 支持 增 量 检 索 。 并 不 是 所 有 的 查询 都 具有 一 个 唯一 
的 关键 字 ， 可 以 增 量 检索 行 。 在 这 种 情况 下 ， 可 以 用 et de 要 的 
列 ， 其 形式 是 以 逗号 分 隔 的 列 的 列表 。 如 果 不 能 以 增 量 方式 检索 数据 ， 就 一 次 完全 加 载 到 
内 存 ， 然 后 再 一 行 一 行 地 进行 提供 ， 这 种 方式 称 为 “ 伪 增 量 ”方式 。 


7.1.3 手把手 教 你 
1. IDE 环境 配置 


本 书 以 Eclipse 作为 集成 开发 环境 ， 因 此 ， 只 讲述 Eclipse 的 环境 设置 。 

开发 环境 如 下 : Eclipse 版 本 Indigo， 数 据 库 使 用 MySQL 5.5， 数 据 库 连接 驱动 使 用 
mysql-connector-java-5.1.6.jar。 这 里 假设 Eclipse 和 MySQL 都 已 安装 好 ， 如 果 读 者 对 如 何 

安装 Eclipse 和 MySQL 有 疑问 ， 请 参考 相关 技术 书籍 。 

首先 ， 启 动 Eclipse， RD 选择 File | New | Java Project 菜单 
项 ， 新 建 一 个 名 称 为 weka 的 项 目 。 然 后 在 Package Explorer 中 ， 右 击 新 建 的 weka 项 目 ， 
在 弹出 的 上 下 文 菜单 中 选择 Build Path | Configure Build Path 菜单 项 ， 弹 出 如 图 7.1 所 示 的 
Properties for weka( 属 性 配置 ) 对 话 框 。 

单 击 窗口 右边 的 Add Library 按钮 ， 弹 出 如 图 7.2 所 示 的 Add Library( 添 加 库 ) 对 话 框 。 


图 7.1 属性 配置 对 话 框 图 7.2 添加 库 对 话 框 


选择 User Library 条 目 ， 单 击 Next 按钮 ， 打 开 如 图 7.3 所 示 的 添加 用 户 库 界 面 。 

单 击 图 7.3 所 示 对 话 框 右边 的 User Libraries 按钮 ， 弹 出 一 个 Preferences 窗口 。 单 击 
New 按钮 ， 为 用 户 库 取 一 个 有 意义 的 名 称 ， 如 wekalibs。 然 后 单 击 Add JARs 按钮 ， 添 加 
如 下 jar 文件 : wekajar 、figtreejar 、jmathplot 、prefusejar 和 mysql-connector-java- 
5.1.6.jar。 如 果 要 使 用 诸如 timeseriesForecasting 等 附加 功能 ， 必 须 添加 所 需 的 jar 文件 ， 完 
成 后 的 对 话 框 如 图 7.4 所 示 。 
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7.3 ”添加 用 户 库 界面 7.4 添加 jar 文 件 
最 后 ， 单 击 OK 或 Finish 按钮 结束 配置 。 
如 注意 : 上述 过 程 只 需要 在 第 一 次 配置 的 时 候 完成 就 可 以 了 ， 以 后 只 需要 在 Java 项 目 
中 添加 用 户 库 即 可 。 
2. 加 载 ARFF 文件 


本 示例 采用 两 种 方式 加 载 数据 集 文件 ， 第 一 种 方式 调用 DataSource 类 的 read 方法 ， 这 
适合 文件 扩展 名 与 数据 集 格式 匹配 的 情形 ， 第 二 种 方式 使 用 直接 指定 加 载 器 ， 再 调用 加 载 
器 的 getDataSet 方法 。 由 于 本 例 中 的 文件 扩展 名 与 数据 集 格 式 相 匹 配 ， 因 此 使 用 两 种 方式 
都 会 成 功 。 加 载 数据 集 文 件 后 ， 直 接 在 控制 台 打 印 出 数据 集 的 内 容 。 

在 加 载 数据 集 文 件 时 ， 不 管 是 调用 DataSource 的 read 方法 还 是 调用 所 指定 加 载 器 的 
getDataSet 方法 ， 都 有 可 能 会 发 生 一 些 例外 ， 如 找 不 到 文件 、 文 件 已 坏 、 文 件 格式 不 正确 
等 ， 在 Java 中 有 两 种 处 理 方式 ， 第 一 种 是 在 可 能 抛 出 例外 的 方法 中 使 用 throws 语句 进行 
声明 ， 继 续 抛 出 异常 对 象 ， 本 示例 采用 这 种 方式 ， 第 二 种 是 使 用 try…catch 结构 对 例外 进 
行 捕获 和 处 理 ， 下 一 个 示例 采用 这 种 方式 。 

编写 示例 代码 如 下 : 


程序 清单 7.7 加 载 ARFF 文件 


Package wekalearning.dataset .loaddata; 


import weka.core.Instances; 
import weka.core.converters.ArffLoader; 
import weka.core.converters.ConverterUtils.DataSource; 


import java.io.File; 
public class LoadArffFile { 
public static void main(String[] args) throws Exception { 


// 使 用 Datasource 类 的 read 方法 来 加 载 ARFF 文件 
System.out.println("\n\n 使 用 Datasource 类 的 read 方法 来 加 载 ARFF 文件 ") ; 
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// 同样 也 要 捕获 程序 异常 ， 这 里 已 抛 出 


Instances datal = DataSource .reaa("C:/Weka-3- 


7/data/weather.nominal .arff"); 


} 


System. out.println ("\n 数据 集 内 容 : ") ; 
System.out.println (datal); 


// 使 用 直接 指定 加 载 器 的 方法 来 加 载 ARFF 文件 

System. out.println ("\nNn 使 用 直接 指定 加 载 器 的 方法 来 加 载 ARFF 文件 ") ; 

// 创建 一 个 ArffLoader 类 实例 

ArffLoader loader = new ArffLoader (); 

// 加 载 ARFE 文件 ， 

// 此 时 从 系统 中 读 文件 时 要 捕获 异常 ， 这 里 通过 在 main 函数 中 抛 出 

loader.setSource (new File("C:/Weka-3-7/data/weather.numeric.arff")); 
Instances data2 = loader.getDataset (); 

System. out.printin("\n 数据 集 内 容 : ") 7 

System.out.println(data2) 7 


3. 加 载 XRFF 文件 


本 示例 加 载 XRFF 格式 的 数据 文件 。 为 了 更 清楚 地 说 明 问 题 ， 有 意 使 文件 扩展 名 与 数 
据 集 格 式 不 相 匹 配 ， 这 样 ， 调 用 DataSource 类 的 read 方法 肯定 不 会 成 功 ， 只 能 采用 直接 指 
定 加 载 器 的 方式 。 

首先 准备 数据 文件 ， 在 探索 者 界面 中 打开 data 目录 下 的 weather.nominal.arff 文件 ， 在 


预 处 理 


面板 上 单 击 Save 按钮 ， 打 开标 准 的 “保存 ”文件 对 话 框 ， 导 航 至 data 目录 下 ， 选 


择 文件 类 型 为 XRFF data files(*.xrfp ， 修 改 文件 名 为 weather.nominal.xrff。 然 后 打开 
Windows 资源 管理 器 ， 将 新 保存 文件 的 后 缀 名 修改 为 “xml”， 即 weather.nominal.xml。 
编写 示例 代码 如 下 。 
程序 清单 7.8 加载 XRFF 文件 


Package wekalearning.dataset .loaddata; 


import weka.core.Instances; 
import weka.core.converters.ConverterUtils.DataSource; 
import weka.core.converters .XRFFLOader; 


import java.io.File; 


public class LoadxrffFile { 


public static void main(string[] args) { 
// 使 用 Datasource 类 的 read 方法 来 加 载 XRFF 文件 
System. out.println (" 使 用 DataSource 类 的 read 方法 来 加 载 XRFF 文件 ") ; 
System. out.println ("由 于 文件 扩展 名 与 数据 集 格式 不 匹配 ， 肯 定 加 载 失败 ") ; 
// 同样 也 要 捕获 程序 异常 ， 这 里 已 抛 出 


try { 
Instances data = DataSource 
-read("Cc:/Weka-3-7/data/weather .nomjinal .xml"); 
System.out.println ("\n 数据 集 内 容 : ") ; 
System.out.println (data); 
} catch (Exception e) { 
System.out.println ("加 载 文件 失败 !") ; 
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System. out.println ("\nNn 使 用 直接 指定 加 载 器 的 方法 来 加 载 ARFF 文件 ") ; 
System. out.println ("由 于 直接 指定 符合 数据 集 格式 的 加 载 器 ， 肯 定 加 载 成 功 ") ; 
try { 
XRFFLOader loader = new XRFFLoader (); 
loader.setSource (new File("C:/Weka-3- 
7/data/weather.nominal .xml1")); 
Instances data = loader.getDataSet (); 
System.out.println("Nn 数据 集 内 容 : ") 7 
System.out.println (data); 
} catch (Exception e) { 
System.out.println ("加 载 文件 失败 !") ; 
} 


} 


锭 注意 :代码 中 采用 try.…catch 结构 对 例外 进行 捕获 和 处 理 。 

4. 从 数据 库 加 载 

要 使 用 数据 库 ， 必 须 先 在 Weka 中 设置 数据 库 连接 ， 其 具体 步骤 请 参见 本 书 第 一 章 
“访问 数据 库 ” 一 节 。 

首先 ， 在 数据 库 中 新 建 一 张 数据 库 表 并 填充 数据 ， 这 里 使 用 SQL 语句 建 表 ， 并 插入 数 
据 。SQL 文件 内 容 如 程序 清单 7.9 所 示 ， 在 数据 库 中 批量 执行 这 些 SQL 语句 ， 就 建立 一 张 
名 称 为 weather 的 数据 库 表 。 


程序 清单 7.9 ”weathersql 


CREATE TABLE 'weather' ('outlook' varchar (20) ，'temperature' varchar(20), 
"humidity' varchar (20) ，'windy' varchar (20) 'play' varchar (20) ) 7 


INSERT INTO 'weather' ('outlook', 'temperature', "humidity'，"windy'， 'play') 
VALUES ('sunny', 'hot', "high'， 'FALSE', "no') 7 

INSERT INTO 'weather' ('outlook', 'temperature', "humidity', 'windy', 'play') 
VALUES ('sunny', 'hot', ‘high', 'TRUE', "no")7 

INSERT INTO 'weather' ('outlook', 'temperature', "humidity', 'windy', 'play') 
VALUES ('overcast', 'hot', ‘'high', '‘'FALSE', 'yes'); 


然后 编写 程序 实现 从 数据 库 中 检索 数据 。 本 例 分 别 使 用 InstanceQuery 类 和 DatabaseLoader 
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类 从 数据 库 中 批量 检索 数据 。 代 码 如 程序 清单 7.10 所 示 ， 代 码 中 的 数据 库 连 接 字 符 串 ( 数 
据 库 URL、 用 户 名 和 密码 ) 需 要 根据 自己 的 数据 库 配置 做 一 些 相应 的 更 改 。 代 码 还 调用 
setClassIndex 方法 将 最 后 一 个 属性 设置 为 类 别 属性 ， 方 便 以 后 使 用 分 类 器 。 


程序 清单 7.10 LoadFromDB.java 


package wekalearning.dataset .loaddata; 


import weka.core.Instances; 
import weka.core.converters.DatabaseLoader; 
import weka.experiment .InstanceQuery; 


public class LoadFromDB { 


public static void main(string[] args) throws Exception { 
InstanceQuery query = null; 
Instances data = null; 


// 使 用 InstanceQuery 类 

System. out.println ("使 用 InstanceQuery 类 从 数据 库 中 检索 数据 ") ; 
query = new InstanceQuery (); 
query.setDatabaseURL ("jdbc:mysql://localhost:3306/weka"); 
query.setUsername ("weka"); 
query.setPassword ("weka"); 
query.setQuery ("select * from weather"); 

data = query.retrieveInstances (); 

// 使 用 最 后 一 个 属性 作为 类 别 属性 

if (data.classIndex() = -1) 

data.setclassIndex (data.numAttributes() - 1); 

System. out.println ("数据 集 内 容 : ") 7 
System.out.println (data); 


// 使 用 DatabaseLoader 类 进行 “批量 检索 ” 


System.out.println("\nNn 使 用 DatabaseLoader 类 从 数据 库 中 批量 检索 数据 ") ; 
DatabaseLoader loader = null; 


loader = new DatabaseLoader (); 
loader.setSource ("jdbc:mysql://localhost:3306/weka", "weka", "weka"); 
loader.setQuery ("select * from weather"); 
Instances datal = loader.getDataset (); 
// 使 用 最 后 一 个 属性 作为 类 别 属性 
if (datal.classIndex() 一 -1) 
datal .setCclassIndex (datal .numAttributes() - 1); 
System. out.println ("数据 集 内 容 : ") ; 
System.out.println (datal); 


} 

如 果 要 实现 增 量 检索 ， 本 例 的 weather 数据 库 表 是 不 支持 的 ， 必 须 先 修改 该 表 ， 增 加 
一 个 关键 字 才 能 增 量 检 索 行 。 由 于 天 气 数据 集 的 实例 数量 较 少 ， 增 量 检 索 意义 不 大 ， 就 贸 
给 读者 自己 解决 。 


7.2 保存 数据 


保存 weka.core.Instances 对 象 与 先前 的 读 取 数 据 一 样 容易 ， 尽 管 再 次 存储 数据 的 过 程 
比 起 读 入 数据 到 存储 器 来 说 很 不 常见 。 以 下 分 别 介绍 如 何 将 数据 保存 至 文件 和 数据 库 中 。 


7.2.1 保存 数据 至 文件 


所 有 的 保存 器 (saver) 都 位 于 weka.core.converters 包 中 ， 保 存 数 据 既 可 以 让 Weka 选择 
合适 的 转换 器 ， 也 可 以 指定 显 式 转换 器 。 如 果 Weka 不 认识 要 保存 数据 的 文件 扩展 名 ， 只 


能 使 用 后 一 种 方法 。 
如 果 文 件 扩展 名 与 数据 文件 格式 相符 (一 般 情 况 都 是 这 样 )， 可 以 使 用 DataSink 类 ， 该 
类 为 weka.core.converters.ConverterUtils 的 内 部 类 。 示 例如 下 : 


程序 清单 7.11 使 用 DataSink 类 
// 要 保存 的 数据 结构 


Instances data = ... 

// 保存 为 ARFF 
DataSink.write("/some/where/data.arff", data); 
// 保存 为 CSV 


Datasink.write("/some/where/data.csv", data); 
如 下 是 明确 指定 CSVSaver 转换 器 的 一 个 示例 : 
程序 清单 7.12 ”明确 指定 转换 器 

// 要 保存 的 数据 结构 


Instances data = ... 

// 保存 为 CSV 

CSVSaver saver = new CSVSaver () 7 
saver.setInstances (data); 

saver.setFile (new File("/some/where/data.csv")); 
saver .writeBatch () 7 


7.2.2 保存 数据 至 数据 库 


相对 于 保存 到 文件 ，Weka 将 数据 保存 到 数据 库 的 操作 并 没有 很 明显 的 区 别 。 用 户 需 
要 了 解 DatabaseSaver 转换 器 。 与 DatabaseLoader 加 载 器 一 样 ， 数 据 库 保 存 器 也 可 以 使 用 
批量 模式 或 增 量 模式 来 存储 数据 。 
以 下 第 一 个 示例 展示 如 何 将 数据 以 批 处 理 模式 保存 (其 方法 不 难 )。DatabaseSaver 类 用 
于 保存 数据 到 数据 库 ， 首 先 实 例 化 DatabaseSaver 对 象 ， 调 用 setDestination 方法 设置 数据 
库 URL 、 有 用户 名 和 密码 ， 调 用 setTableName 方法 设置 数据 库 表 的 名 称 ， 
setRelationForTableName(false) 方 法 不 使 用 关系 名 直接 作为 表 名 。 
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程序 清单 7.13 ” 批 处 理 模 式 保 存 
// 要 保存 的 数据 结构 


Instances data = ... 

// 保存 数据 到 数据 库 

DatabaseSaver saver = new DatabaseSaver(); 
saver. setDestination ("jdbc url", "the user", "the password"); 
// 在 这 里 明确 指定 表 名 

saver.setTableName ("tableName"); 

Saver. setRelationForTableName (false); 

// 或 者 可 以 只 更 新 数据 集 的 名 称 ， 并 把 关系 名 称 作为 表 名 
// saver.setRelationForTableName (true); 

// data.setRelationName ("tableName2"); 
saver.setInstances (data); 

saver.writeBatch () 7 


增 量 地 保存 数据 需要 做 多 一 点 的 工作 ， 用 户 必 须 调 用 
setRetrieval(DatabaseSaver.INCREMENTAL) 方 法 指定 是 增 量 写 入 数据 ， 以 及 在 保存 全 部 数 
据 后 调用 writeIncremental(null) 方 法 以 通知 保存 器 。 代 码 片 段 如 下 : 


程序 清单 7.14 增 量 模 式 保存 
// 要 保存 的 数据 结构 


Instances data = ... 

// 保存 数据 到 数据 库 

DatabaseSaver saver = new DatabaseSaver(); 
saver.setDestination ("jdbc url", "the user", "the password"); 
// 在 这 里 明确 指定 表 名 

saver.setTableName ("tableName2"); 

Saver. setRelationForTableName (false); 

// 或 者 可 以 只 更 新 数据 集 的 名 称 

// saver.setRelationForTableName (true); 

// data.setRelationName ("whatsoever2"); 

saver. setRetrieval (DatabaseSaver .INCREMENTAL); 
saver.setstructure (data); 

count = 0; 

for (int i = 0; i < data.numInstances(); i++) { 
saver.writeIncremental (data.instance (i)); 


} 
// 通知 保存 器 已 经 完成 


saver.writeIncremental (null); 


7.2.3 手把手 教 你 用 


1. 保存 数据 至 文件 
本 示例 读 取 ARFF 格式 的 数据 文件 ， 然 后 保存 为 CSV 格式 的 文件 ， 即 完成 格式 转换 
的 功能 。 


由 于 文件 扩展 名 与 数据 文件 格式 相符 ， 因 此 既 可 以 使 用 DataSink 类 ， 也 可 以 明确 指定 


@ 


CSVSaver 转换 器 。 


代码 如 程序 清单 7.15 所 示 。 运 行程 序 后 ， 在 目标 子 目 录 中 可 以 找到 iris.csv 文件 和 


iris2.csv 文件 。 
程序 清单 7.15 ARFF2CSVjava 


Package wekalearning.dataset .savedata; 


import java.io.File; 

import weka.core.Instances; 

import weka.core.converters.CSVSaver; 

import weka.core.converters.ConverterUtils.Datasink; 
import weka.core.converters.ConverterUtils.DataSource; 


Ar 
* ARFEF 文件 转换 为 CSV 文件 
public class ARFF2CSV { 


public static void main(String[] args) { 


try { 
// 加 载 数据 


Instances data = new Instances (DataSource.read("C:/Weka-3- 


7/data/iris.arff")); 
System.out.println (" 完 成 加 载 数据 ") ; 


// 使 用 Datasink 类 ， 保 存 为 CSV 


Datasink.write("C:/Weka-3-7/data/iris.csv", data); 


System.out.println ("完成 使 用 Datasink 类 保存 数据 ") 


// 明确 指定 转换 器 ， 保 存 为 CSV 
CSVSaver saver = new CSVSaver (); 
saver.setInstances (data); 


日 


saver.setFile (new File("C:/Weka-3-7/data/iris2.csv")); 


saver .writeBatch(); 


System.out.println ("完成 指定 CSVSaver 转换 器 保存 数据 ") ; 


} catch (Exception e) { 
e.printstackTrace (); 
} 


} 


2. 保存 数据 至 数据 库 


本 示例 首先 从 文件 加 载 数据 ， 然 后 以 批量 方式 或 增 量 方式 将 数据 保存 到 数据 库 中 。 代 
码 如 程序 清单 7.16 所 示 ，DatabaseSaver 类 用 于 保存 数据 到 数据 库 ， 首 先 实例 化 


DatabaseSaver 对 象 ， 调 用 setDestination 方法 设置 数据 库 连 接 字符 绰 


由，setTableName 方法 
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用 于 设置 数据 库 表 的 名 称 ，setRelationForTableName(false) 方 法 不 使 用 关系 名 直接 作为 表 
名 ， 如 果 需 要 将 关系 名 作为 表 名 ， 修 改 方法 参数 为 True 即 可 。 使 用 增 量 模式 ， 请 调用 
setRetrieval(DatabaseSaver.INCREMENTAL) 方 法 ， 并 调用 setStructure 设置 表 结构 ， 循 环 调 
用 writeIncremental 方法 插入 记录 ， 在 完成 插入 之 后 ， 记 得 调用 writeIncrementaltnull) 方 法 
通知 保存 器 。 


程序 清单 7.16 Save2DB.java 


Package wekalearning.dataset .savedata; 


import weka.core.Instances; 
import weka.core.converters.ConverterUtils.DataSource; 
import weka.core.converters.DatabaseSaver; 


/** 

* 将 数据 集 保存 到 数据 库 

be 

public class Save2DB { 


public static void main(String[] args) { 


try { 
// 加 载 数据 
Instances data = new Instances ( 
DataSource.read("C:/Weka-3-7/data/iris.arff")); 
System.out.println (" 完 成 加 载 数据 ") ; 


// 批量 方式 保存 数据 到 数据 库 

DatabaseSaver saver = new DatabaseSaver () 7 

saver .setDestination ("jdbc:mysql://localhost:3306/weka", "weka", 
"weka") 7 

// 在 这 里 明确 指定 表 名 

saver.setTableName ("iris"); 

saver .setRelationForTableName (false); 

saver.setInstances (data); 

saver .writeBatch(); 


System.out.println ("完成 批量 方式 保存 数据 ") ; 


// 增 量 方式 保存 数据 到 数据 库 

DatabaseSaver saver2 = new DatabaseSaver (); 

saver2.setDestination ("jdbc:mysql://localhost:3306/weka", "weka", 

"weka"); 

// 在 这 里 明确 指定 表 名 

saver2.setTableName ("iris2"); 

saver2 .setRelationForTableName (false); 

SavVer2 .setRetrieval (DatabaseSaver. INCREMENTAL); 

saver2.setstructure (data); 

for (int i = 0; i < data.numInstances(); i++) { 
saver2.writeIncremental (data.instance (i)); 


// 通知 保存 器 已 经 完成 
Saver2.writeIncremental (nul1) 7 


System. out.println (" 完 成 增 量 方式 保存 数据 ") ; 


} catch (Exception e) { 
e.printstackTrace (); 


} 
运行 程序 之 后 ， 在 数据 库 中 创建 两 个 一 模 一 样 的 数据 库 表 一 一 iris 和 iris2， 每 个 表 有 
150 条 记录 ， 如 图 7.5 所 示 。 
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7.5 运行 结果 


7.3 处 理 选 项 


如 果 要 对 分 类 器 等 对 象 进行 配置 ， 可 以 像 探索 者 界面 那样 ， 将 希望 改变 的 属性 使 用 适 
当 的 get 或 set 方法 (这 在 Java 中 称 为 Getters 和 Setters)， 前 者 读 取 属 性 ， 后 者 设置 属性 。 
或 者 ， 如 果 分 类 器 等 对 象 的 Java 类 实现 了 weka.core.OptionHandler 接口 ， 用 户 就 可 以 使 用 
该 对 象 提 供 的 功能 来 解析 命令 行 选项 ， 如 ， 通 过 setOptions(String[]) 方 法 来 设置 选项 ， 通 过 
getOptions() 方 法 返回 String[] 数 组 以 获取 选项 。 上 述 两 种 方法 之 间 的 区 别 是 : 
setOptions(String[]) 方 法 不 能 用 于 增 量 地 设置 选项 ， 而 set 方法 则 没有 这 一 限制 。 没 有 在 选 
项 数组 中 明确 指定 的 所 有 的 其 他 选项 ， 一 律 使 用 默认 值 。 


7.3.1 处 理 选 项 方法 

处 理 选项 最 基本 的 方法 是 采用 手工 组 装 String 数组 。 下 面 的 示例 使 用 单个 选项 (“-R”) 
接受 一 个 参数 (“1”) 来 创建 一 个 选项 数组 (其 含义 是 删除 第 一 个 属性 )， 并 使 用 该 选项 初始 
化 Remove 过 滤器 。 代 码 片 段 如 下 。 

程序 清单 7.17 手工 组 装 字符 串 数 组 


String[] options = new String[2]7 
options[0] = "-R"; 


options[1] = "1"; 
Remove rm = new Remove(); 
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rm.setoptions (options) 7 


由 于 setOptions(String[]) 方 法 需要 完全 解析 并 正确 拆 分 数组 ， 可 以 通过 控制 台 的 命令 提 
示 符 得 到 完整 的 选项 。 使 用 这 种 方法 最 容易 犯 两 个 错误 : 第 一 ， 将 选项 和 参数 组 合 在 一 
起 。 例 如 ， 使 用 -R 1 完整 地 作为 字符 串 数组 元 素 是 不 正确 的 ，Weka 会 输出 未 知 选项 R 1 
的 错误 消息 ， 第 二 ， 尾 随 空 白 。 使 用 -R 也 不 正确 ， 因 为 不 会 删除 尾随 空格 ， 因 此 无 法 识别 
选项 “R”。 

避免 上 述 问题 最 简单 的 方法 是 : 调用 weka.core.Utils 类 的 splitOptions(String) 方 法 ， 自 
动 将 命令 行 字符 串 拆 解 并 生成 一 个 String 数组 ， 然 后 设置 选项 。 代 码 参见 程序 清单 7.18。 

程序 清单 7.18 调用 Utils.splitOptions(String) 方 法 

String[] options = Utils.splitOptions("-R 1"); 

由 于 splitOptions 方法 会 忽略 空格 ， 使 用 -R 1( 前 空格 ) 或 -R 1( 后 空格 ) 作 为 参数 都 会 返 
相同 的 正确 结果 一 一 -R 1。 

不 一 定 都 要 像 前 例 Remove 过 滤器 那样 使 用 setOptions(String[]) 方 法 ， 下 面 的 代码 片段 
展示 如 何 使 用 属性 的 set 方法 来 完成 同样 的 功能 : 

程序 清单 7.19 使 用 属性 的 set 方法 


Remove rm = new Remove () 7 
rm.setAttributeIndices ("1"); 


为 了 找 出 哪个 选项 属于 哪 一 个 属性 ， 即 get 和 set 方法 ， 最 好 看 看 setOptions(String[]) 
和 getOptions() 方 法 。 在 这 些 方法 直接 使 用 成 员 变 量 的 情况 下 ， 用 户 只 需要 寻找 该 特殊 成 员 
变量 向 外 界 提供 访问 的 方法 。 


7.3.2 手把手 教 你 


本 示例 采用 前 面 讲述 的 处 理 选项 的 三 种 方法 ， 功 能 都 是 移 除数 据 集 第 一 列 ， 代 码 如 程 
序 清单 7.20 所 示 。 首 先 加 载 数据 集 ， 然 后 分 别 使 用 手工 组 装 String 数组 、 使 用 Utils 类 的 
splitOptions(String) 方 法 ， 以 及 使 用 属性 的 set 方法 ， 完 成 数据 集 的 过 滤 操 作 。 

程序 清单 7.20 OptionHandlerjava 


Package wekalearning.dataset .optionshandling; 


回 


import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.Remove; 


public class OptionHandler { 


public static void main(String[] args) throws Exception { 
// 加 载 数 据 文件 
Instances data = new Instances (DataSource.read("C:/Weka-3— 
7/data/weather.nominal .arff")); 


System. out.println ("数据 集 内 容 : ") ; 
System.out.println (data); 


// 手 工 组 装 string 数组 

System. out.printin("\n\n 手工 组 装 string 数组 ") ; 
String[] options = new String[2]; 

options [0] = "-R"; 

options[1] = "1"; 

Remove rm = new Remove(); 

rm.setOptions (options); 

// 数 据 集 过 滤 

rm.setIinputFormat (data); 

Instances jinstl = Filter.useFilter(data, rm); 
System. out.println ("\n 数据 集 过 滤 后 的 内 容 : ") ; 
System.out.println (inst1); 


// 使 用 weka.core.Utils 类 的 splitoptions (String) 方法 
System.out.printin("\n\n 使 用 Utils 类 的 splitoptions (String) 方 法 "); 
String[] options2 = Utils.splitOoptions("-R 1"); 

Remove rm2 = new Remove(); 

Im2 .setOoptions (options2); 

Im2 .setInputFormat (data); 

Instances inst2 = Filter.useFilter(data, rm2); 

System. out.println("\n 数据 集 过 滤 后 的 内 容 : ") ; 

System.out.println (inst2); 


// 使 用 属性 的 set 方法 

System.out.println("\nNn 使 用 属性 的 set 方法 ") ; 
Remove rm3 = new Remove(); 
rm3.setAttributeIndices ("1"); 
rm3.setInputFormat (data); 

Instances inst3 = Filter.useFilter(data, rm3); 
System.out.println("\n 数据 集 过 滤 后 的 内 容 : ") ; 
System.out.println (inst3); 


7.4 ”内 存 数据 集 处 理 


本 节 首 先 讲述 如 何在 内 存 中 创建 数据 集 ， 然 后 讲述 如 何 打 乱 数据 顺序 ， 使 之 适应 学 习 
方案 的 要 求 。 


7.4.1 在 内 存 中 创建 数据 集 


前 面 已 经 学 习 了 从 磁盘 或 数据 库 加 载 数据 集 ， 但 这 并 不 是 Weka 获取 数据 的 唯一 方 
式 ， 还 可 以 通过 编程 在 内 存 中 创建 数据 集 。 创 建 数据 集 需 要 在 内 存 中 生成 数据 集 存 储 结构 
( 即 weka.core.Instances 对 象 )， 这 是 一 个 两 阶段 的 过 程 : 第 一 ， 通 过 设置 属性 定义 数据 格 
式 ; 第 二 ， 一行 一 行 地 添加 实际 数据 。 
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1. 定义 数据 格式 


Weka 目前 有 以 下 五 种 不 同 的 属性 类 型 。 
numeric( 数 值 型 )， 连 续 变量 。 
date( 日 期 型 ): 日 期 变量 。 
nominal( 标 称 型 ): 预定 义 的 标签 。 
string( 字 符 串 型 ): 文本 数据 。 
e@ relational( 关 系 型 ): 包含 其 他 关系 。 例 如 ， 多 个 实例 数据 组 成 的 包 (bags)。 
对 于 不 同 的 属性 类 型 ，Weka 全 都 使 用 同一 个 类 一 一 weka.core.Attribute， 但 使 用 不 同 
的 构造 函数 ， 下 面 分 别 说 明 如 何 创建 这 些 不 同 的 属性 对 象 。 
1) 数值 型 
这 是 最 容易 创建 的 属性 类 型 ， 因 为 仅 需要 属性 的 名 称 ， 例 如 : 


Attribute numeric = new Attribute ("attribute name "); 


2) 日 期 型 

日 期 属性 在 内 部 与 数值 型 属性 一 样 处 理 ， 但 为 了 解析 和 显示 正确 的 日 期 值 ， 需 要 指定 
日 期 格式 。 为 了 操作 简单 ，Java 的 日 期 和 时 间 都 使 用 同样 的 类 型 ， 其 格式 可 参见 Java 文档 
的 java.text.SimpleDateFormat 类 中 的 详细 解释 。 下 面 的 例子 展示 了 如 何 创建 一 个 日 期 属 
性 ， 使 用 的 日 期 格式 为 由 连 字 符 分 隔 的 4 位 数字 的 年 、2 位 数字 的 月 份 ， 以 及 2 位 数字 
的 天 。 


Attribute date = new RAttribute ("attribute name ", "yyyy-MM-dd"); 


这 里 ， 表 示 月 份 的 MM 一 定 要 大 写 ， 如 果 小 写 则 表示 分 钟 。 

3) 标 称 型 

标 称 属性 包含 预定 义 的 标签 ， 用 户 需 要 提供 这 些 以 java.util.ArrayList<String> 对 象 存储 
的 标签 列表 ， 下 面 代 码 片段 展示 了 如 何 创 建 一 个 有 四 个 标签 的 标 称 属性 。 

RrrayList<String> labels = new ArrayList<string>(); 

labels.add ("label a"); 

labels.add ("label b"); 

labels.add ("label c"); 


labels.add ("label d"); 
Attribute nominal = new Attribute("attribute name", labels); 


4) 字符 串 型 

与 标 称 属性 不 同 ， 字 符 串 类 型 不 需要 存放 预定 义 的 标签 列表 。 通 常用 于 存储 文本 数 
据 ， 即 文本 分 类 的 文档 内 容 。 字 符 串 型 使 用 与 标 称 属性 相同 的 构造 函数 ， 但 需要 提供 一 个 
null 值 ， 而 非 java.util.ArrayList<String> 的 实例 。 例 如 : 


Attribute string = new Attribute("attribute name", (ArrayList<string>)null); 


5) 关系 型 
关系 属性 只 需要 在 构造 函数 中 用 weka.core.Instances 对 象 来 定义 关系 结构 。 如 下 代码 
片段 生成 一 个 关系 属性 ， 包 含有 两 个 属性 (一 个 数值 型 和 一 个 标 称 型 属性 ) 的 关系 : 


ArrayList<Attribute> atts = new ArrayList<Attribute> (); 
atts.addElement (new Attribute ("rel .num")); 

RrrayList<String> values = new ArrayList<String>(); 

values.add ("val A"); 

values.add ("val B"); 

values.add("val C"); 

atts.add (new Attribute ("rel.nom", values)); 

Instances rel struct = new Instances("rel", atts, 0); 

Attribute relational = new Attribute ("attribute name", rel struct); 


创建 属性 对 象 之 后 ， 使 用 java.util.ArrayList<attribute> 对 象 将 所 有 属性 对 象 包括 进来 ， 
然后 再 创建 一 个 weka.core.Instances 对 象 ， 以 包括 属性 对 象 的 列表 。 注 意 到 Instances 对 象 
实质 就 是 数据 集 ，Weka 没有 名 称 为 Dataset 的 对 象 。 如 下 示例 创建 一 个 数据 集 ， 带 有 两 个 
数值 型 属性 和 一 个 标 称 型 类 别 属 性 ， 其 中 ， 类 别 属性 的 两 个 标签 为 yes 和 no。 

Attribute numl = new Rttribute ("numl") 7 

Attribute num2 = new Attribute ("num2") 7 

RrrayList<String> labels = new ArrayList<string>(); 

labels.add ("no"); 

labels.add ("yes"); 

Attribute cls = new Attribute("class", labels); 

ArrayList<Attribute> attributes = new ArrayList<Attribute>(); 

attributes.add (numl); 

attributes.add (num?2); 

attributes.add (cls); 

Instances dataset = new Instances ("relation name", attributes, 0); 

在 示例 的 最 后 一 行 ，Instances 构造 函数 的 第 一 个 参数 是 关系 名 称 ， 第 二 个 参数 是 属性 
对 象 ， 最 后 一 个 参数 告诉 Weka 需要 为 即将 到 来 的 weka.core.Instance 对 象 预 留 多 少 内 存 ， 
此 处 为 0 表示 不 需要 预 留 内 存 。 如 果 用 户 知道 添加 到 数据 集 的 行 数 ， 那 么 就 应 该 指定 该 参 
数 ， 以 节省 扩展 内 存 开 销 。 如 果 用 户 指 定 的 值 比 要 添加 的 行 数 大 很 多 也 没关系 ， 用 户 始终 
可 以 调用 compactify() 方 法 对 数据 集 进行 裁剪 ， 避 免 内 存 浪费 。 

2. 添加 数据 

定义 好 数据 集 的 结构 之 后 ， 就 可 以 一 行 一 行 地 添加 实际 数据 。 这 时 需要 使 用 
weka.core.Instance 接口 以 提供 更 大 的 灵活 性 ，weka.core.AbstractInstance 类 实现 该 接口 ， 
AbstractInstance 类 直接 派生 weka.core.DenseInstance 类 和 weka.core.SparseInstance 类 ， 这 
两 个 类 提供 了 实例 的 基本 功能 。 前 者 处 理 实例 速度 较 快 ， 是 更 为 优雅 的 面向 对 象 方法 ， 后 
者 只 存储 非 零 值 ， 因 而 节省 一 些 存储 空间 。 在 后 文 的 示例 中 ， 大 部 分 都 使 用 DenseInstance 
类 ， 很 少 使 用 SparseInstance 类 ,但 两 者 的 处 理 非常 相似 。 

用 户 可 以 使 用 DenseInstance 类 的 两 种 构造 函数 来 实例 化 一 个 数据 行 ， 两 种 构造 函数 的 
功能 如 下 。 

1) DenseInstance(double weight, double[] attValues) 

该 构造 函数 生成 一 个 指定 权重 及 给 定 double 数组 的 DenseInstance 对 象 。 在 Weka 内 
部 ， 全 部 五 种 属性 类 型 都 使 用 double 格式 。double 格式 表示 数值 型 和 日 期 型 肯定 没有 问 
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题 ， 在 Java 内 部 ， 日 期 型 也 是 用 数值 来 表示 的 。 对 于 标 称 型 、 字 符 串 型 和 关系 型 属性 ， 仅 
仅 需 要 存放 存储 值 的 索引 。 

2) DenseInstance(int numAttributes) 

该 构造 函数 生成 一 个 新 的 、 权 重 为 1.0， 全 部 值 都 缺失 的 DenseInstance 对 象 。 

第 二 种 构造 函数 似乎 更 容易 使 有 用， 但是， 以 后 调用 DenseInstance 类 方法 来 设置 值 开 销 
较 大 ， 尤 其 是 需要 加 入 了 大 量 行 的 时 候 。 因 此 ， 如 下 代码 示例 使 用 第 一 种 构造 函数 。 为 简 
单 起 见 ， Instances 对 象 “data” 使 用 了 前 面 介绍 的 不 同属 性 的 代码 片段 ， 包 含 了 所 有 可 能 
的 属性 类 型 。 

对 于 每 个 实例 ， 首 先 要 新 建 一 个 double 数组 来 保存 属性 值 。 注 意 到 一 定 不 能 重复 使 用 
该 数组 ， 而 一 定 要 每 次 都 要 创建 一 个 新 的 数组 。 这 是 因为 Weka 在 实例 化 DenseInstance 对 
象 时 ， 只 是 对 它 进 行 引用 ， 而 没有 创建 其 副本 ， 因 此 重用 就 意味 着 更 改 原 来 的 
DenseInstance 对 象 。 一 般 使 用 如 下 语句 来 新 建 一 个 double 数组 : 


double[] values = new double[data.numAttributes()]; 


然后 ， 使 用 实际 值 来 填充 double 数组 ， 以 下 列举 了 各 种 类 型 值 的 填充 方法 。 
1) 数值 型 
只 设置 数值 的 值 即 可 ， 例 如 : 


values[0] = 1.23; 


2) 日 期 型 
将 日 期 字符 串 转换 成 一 个 double 值 ， 例 如 : 


values [1] = data.attribute (1) .parseDate ("2013-05-11"); 


3) 标 称 型 
确定 标签 的 索引 ， 例 如 : 


values[2] = data.attribute (2) .indexOf ("label b"); 


4) 字符 串 型 
使 用 addStringValue 方法 ， 确 定 字 符 串 的 索引 。 在 内 部 使 用 一 个 哈 希 表 来 保存 所 有 的 
字符 串 值 ， 例 如 : 


values[3] = data.attribute (3) .addStringValue ("A string") 7 


5) 关系 型 
首先 创建 一 个 基于 属性 的 关系 定义 的 新 Instances 对 象 以 确定 其 索引 ， 然 后 调用 
addRelation 方法 ， 例 如 : 


Instances dataRel = new Instances (data.attribute(4) .relation(), 0); 
ValuesRel = new double [dqataRel .numAttributes()]; 

ValuesRel[0] = 2.34; 

valuesRel[1] = dataRel .attribute(1) .indexof ("val C"); 

dataRel .add (new DenseInstance(1.0, valuesRel)); 

values[4] = data.attribute(4) .addRelation (dataRel); 


最 后 ， 以 初始 化 double 数组 来 生成 Instance 对 象 ， 并 添加 至 数据 集 : 


Instance inst = new DenseInstance(1.0, values); 
data.add (inst); 


7.4.2 打 乱 数据 顺序 


由 于 学 习 算 法 很 容易 受 数据 到 达 顺 序 的 影响 ， 数 据 的 随机 化 (也 称 为 “ 洗 牌 ”) 是 一 种 
常见 的 缓解 这 个 问题 的 方法 。 特 别 是 重复 的 随机 化 ， 例 如 ， 在 交叉 验证 过 程 中 ， 有 利于 产 
生 更 真实 的 统计 数据 。 

Weka 为 随机 化 数据 集 提供 了 两 种 方式 。 

第 一 ， 使 用 包含 数据 本 身 的 weka.core.Instances 对 象 的 randomize(Random) 方法 。 这 
种 方法 需要 java.util.Random 类 的 实例 作为 参数 。 下 文 说 明 如 何 正 确实 例 化 这 样 的 对 象 。 

第 二 ， 使 用 weka.filters.unsupervised.instance 包 的 Randomize 过 滤器 。 关 于 如 何 使 用 过 
滤器 的 更 多 信息 ， 请 参见 下 节 。 

机 器 学 习 实验 的 一 个 非常 重要 的 特性 ， 就 是 实验 必须 是 可 重复 的 。 相 同 实验 设置 的 第 
一 次 运行 与 后 续 的 多 次 运行 必须 能 得 到 完全 相同 的 结果 。 可 能 这 看 起 来 不 可 思议 ， 但 在 这 
种 场景 下 ， 仍 然 可 能 采用 随机 化 。 但 是 要 知道 ， 产 生 随 机 数 的 机 制 永远 不 会 返回 一 个 完全 
随机 的 数字 序列 ， 只 会 返回 伪 随 机 的 数字 序列 。 为 了 实现 可 重复 的 伪 随 机 序列 ， 使 用 了 随 
机 种 子 产 生 器 ， 这 是 因为 使 用 相同 的 种 子 值 总 会 产生 相同 的 序列 。 

要 得 到 可 重复 的 伪 随 机 序列 ， 一 定 不 要 使 用 随机 数 生成 器 javautilRandom 类 的 默认 构 
造 函 数 ， 因 为 这 样 创建 的 对 象 每 次 都 有 可 能 产生 不 同 的 序列 。 推 荐 使 用 构造 函数 
Random(long)， 指 定 随机 数 种 子 值 作为 构造 函数 的 参数 。 

为 了 得 到 更 多 地 依赖 于 数据 集 的 数据 随机 化 ， 可 以 使 用 weka.core.Instances 类 的 
getRandomNumberGenerator(int) 方 法 。 该 方法 返回 一 个 java.util.Random 对 象 ， 该 随机 数 产 
生 器 对 象 的 初始 随机 种 子 依赖 于 给 定 的 种 子 ， 以 及 根据 给 定 的 种 子 从 Instances 对 象 中 随机 
选择 的 用 字符 串 表 示 的 weka.core.Instance 对 象 的 哈 希 码 。 


7.4.3 手把手 教 你 用 

1. 在 内 存 中 创建 数据 集 

本 例 演示 如 何在 内 存 中 创建 数据 集 。 操 作 方法 分 为 如 下 四 步 : 第 一 步 ， 设 置 属性 。 按 
照 数 值 型 、 标 称 型 、 字 符 串 型 、 日 期 型 和 关系 型 的 顺序 ， 分 别 创建 五 种 不 同类 型 的 属性 对 
象 ， 第 二 步 ， 创 建 包 含 属性 对 象 列表 的 Instances 对 象 ， 第 三 步 ， 添 加 数据 ， 第 四 步 ， 输 出 
数据 。 

代码 如 程序 清单 7.21 所 示 ， 代 码 有 详细 的 注释 ， 需 要 仔细 研究 两 点 : 第 一 ， 如 何 设置 
各 种 类 型 的 属性 ， 第 二 ， 如 何 添加 数据 。 


程序 清单 7.21 CreateInstances.java 


Package wekalearning.dataset .memory; 


import weka.core.Attribute; 
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import weka.core.DenseInstance; 
import weka.core.Instances; 


import java.util.ArrayList; 


/ 大友 

* 使 用 不 同属 性 类 型 生成 weka. core.Instances 对 象 
th 
public class CreateInstances { 


/** 

* 生成 Instances 对 象 并 以 ARFEF 格式 输出 到 控制 台 

wy 

public static void main(String[] args) throws Exception { 
ArrayList<Attribute> atts; 
ArrayList<Attribute> attsRel; 
ArrayList<string> attVals; 
RrrayList<String> attValsRel; 
Instances data; 
Instances dataRel; 
double[] vals; 
double[] valsRel; 
int i; 


// 1. 设置 属性 
atts = new ArrayList<Attribute>(); 
// - 数值 型 
atts .add (new Attribute ("att1")); 
// - 标 称 型 
// 需 创 建 标签 
attVals = new ArrayList<string> () 7 
Sor (=O0; i< 57 i) 
attVvals.add ("val" + (i + 1)); 
atts.add (new Attribute ("att2", attVals)); 


// - 字符 串 型 

atts .add (new Attribute ("att3"， (ArrayList<String>) nul1) ) 7 
// - 日 期 型 

atts.add (new Attribute ("att4", "yyyy-MM-dd")); 

// - 关系 型 

attsRel = new ArrayList<Attribute> (); 

// 一 数值 型 

attsRel .add (new Attribute("att5.1")); 

// -- 标 称 型 


attValsRel = new ArrayList<string>(); 
for (i = 0; i < 5; i++) 

attvalsRel.add("val5." + (i + 1)); 
attsRel .add (new Attribute("att5.2", attValsRel)); 
dataRel = new Instances("att5", attsRel, 0); 
atts.add (new Attribute ("att5", dataRel, 0)); 


// 2. 创建 Instances 对 象 


data = new Instances ("MyRelation", atts, 0); 


// 3. 添加 数据 

// 第 一 个 实例 

vals = new double[data.numAttributes ()]; 

// - 数值 型 

vals[0] = Math.PT7 

// - 标 称 型 

vals[1] = attVals.indexOof("val3")7 

// - 字符 串 型 

vals[2] = data.attribute (2) .addStringValue ("A string."); 
// - 日 期 型 

vals[3] = data.attribute (3) .parseDate ("2013-04-05"); 
// - 关系 型 

dataRel = new Instances (data.attribute(4) .relation () ，0) 
// -- 第 一 个 实例 

valsRel = new double[2]; 

valsRel [0] Math.PT + 17 

valsRel[1] = attValsRel.indexOof ("val5.3"); 

dataRel .add (new DenseInstance(1.0, valsRel)); 

// -- 第 二 个 实例 

valsRel = new double[2]; 

valsRel [0] Math.PI + 2; 

valsRel[1] = attValsRel.indexOof ("val5.2"); 
dataRel .add (new DenseInstance(1.0, valsRel)); 
vals[4] = data.attribute (4) .addRelation (dataRel); 

// 添加 

data.add (new DenseInstance(1.0, vals)); 


// 第 二 个 实例 

vals = new double[data.numAttributes()]; // 重要 : 必须 new 新 建 double 数组 ! 
// - 数值 型 

vals[0] = Math.E; 


// - 标 称 型 
vals[1] = attVals.indexOof ("wvall"); 
// - 字符 串 型 


vals[2] = data.attribute (2) .addStringValue ("Yet another string.") 7 
// - 日 期 型 

vals[3] = data.attribute (3) .parseDate ("2013-04-10"); 

// - 关系 型 

dataRel = new Instances (data.attribute (4) .relation(), 0); 

// 一 第 一 个 实例 

valsRel = new double[2]; 

valsRel[0] = Math.E + 17 

valsRel[1] = attValsRel.indexOf ("wval5.4"); 

dataRel .add (new DenseInstance(1.0, valsRel)); 


// -- 第 二 个 实例 
valsRel = new double[2]; 
valsRel[0] = Math.E + 2; 


valsRel[1] = attValsRel.indexOf ("wval5.1"); 
dataRel .add (new DenseInstance(1.0, valsRel)); 
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vals[4] = data.attribute (4) .addRelation (dataRel); 
// 添加 
data.add (new DenseInstance(1.0, vals)); 


// 4. 输出 数据 
System. out.println(data) 7 


运行 程序 后 的 输出 如 下 所 示 ， 可 见 结果 符合 设计 要 求 。 输 出 的 数据 中 ， 除 字符 串 型 数 
据 使 用 单 引号 标示 外 ， 关 系 型 也 使 用 单 引 号 。 另 外 ， 关 系 型 数据 使 用 “m” 来 分 隔 多 条 记录 。 


erelation MyRelation 


Q@attribute attl numeric 

@attribute att2 {vall,val2,val3,val4,val5} 

Q@attribute att3 string 

@attribute att4 date yyyy-MM-ad 

Q@attribute att5 relational 

Q@attribute att5.1 numeric 

@attribute att5.2 {val5.1,val5.2,val5.3,val5.4,val5.5} 
@end att5 


@data 

3.141593,val3, 'A string.',2013-04-05,'4.141593,val5.3\n5.141593, val5.2' 
2.718282,vall, 'Yet another string.',2013-04- 
10,'3.718282,val5.4\n4.718282,val5.1" 


2. 打 乱 数据 顺序 


本 例 展 示 两 种 随机 化 方式 的 不 同 ， 如 果 使 用 Random 类 的 默认 构造 函数 ， 则 每 次 产生 
的 伪 随 机 数 序列 都 不 同 ， 从 而 造成 每 次 的 实验 结果 都 可 能 不 相同 而 不 稳定 ， 实 验 不 可 重 
复 。 要 生成 可 重复 的 伪 随机 数 序列 ， 必 须 使 用 提供 随机 数 种 子 的 构造 函数 。 


程序 清单 7.22 Shufflingjava 
Package wekalearning.dataset .memory; 


import java.util.Random; 


import weka.core.Instances; 
import weka.core.converters.ConverterUtils.DataSource; 


public class Shuffling { 


public static void main(String[] args) throws Exception { 
Instances data = DataSource. readad("C:/Weka-3- 
7/data/weather.nominal .arff"); 
System. out.println ("\n 原 数 据 集 内 容 : ") ; 
System.out.println (data); 


// 以 下 使 用 Random 默认 构造 函数 。 如 果 要 得 到 可 重复 的 伪 随机 序列 ， 这 种 方式 不 可 取 
Instances datal = new Instances (data); 

datal.randomjze (new Random()); 

System. out.println ("\n 使 用 默认 构造 函数 后 第 一 次 的 数据 集 内 容 : ") ; 
System.out.println (datal); 


Instances data2 = new Instances (data); 

datal .randomize (new Random()); 

System. out .println("\n 使 用 默认 构造 函数 后 第 二 次 的 数据 集 内 容 : ") ; 
System.out.println (data2); 


// 以 下 使 用 Random 提供 随机 数 种 子 的 构造 函数 。 推 荐 采用 这 种 方式 
long seed = 123417 

Instances data3 = new Instances (data); 

datal .randomize (new Random (seed)); 


System. out .println("\n 使 用 提供 随机 数 种 子 的 构造 函数 后 第 一 次 的 数据 集 内 容 : ") ; 
System.out.println (data3); 


Instances data4 = new Instances (data); 

datal .randomize (new Random (seed)); 

System. out.println("Nn 使 用 提供 随机 数 种 子 的 构造 函数 后 第 二 次 的 数据 集 内 容 : ") ; 
System.out.println (data4); 


} 
运行 程序 ， 仔 细 观 察 运行 的 输出 结果 。 回 答 如 下 问题 ， 使 用 默认 构造 函数 后 是 否 打 乱 
了 数据 顺序 ? 两 次 的 输出 结果 是 否 相 同 ? 使 用 提供 随机 数 种 子 的 构造 函数 呢 ? 


7.5 过 滤 


在 Weka 中 ， 过 滤器 用 于 进行 数据 预 处 理 。 在 wekafilters 包 下 可 以 找到 这 些 过 滤器 ， 
过 滤器 分 为 有 监督 过 滤器 和 无 监督 过 滤器 两 类 ， 前 者 需要 设置 一 个 类 别 属性 ;后 者 不 需要 
类 别 属 性 。 过 滤器 还 可 分 为 基于 属性 (attribute-based) 和 基于 实例 (instance-based) 两 个 子 类 ， 
前 者 针对 列 的 处 理 ， 例 如 ， 添 加 或 删除 列 ;， 后 者 针对 行 的 处 理 ， 例 如 ， 添 加 或 删除 行 。 

这 些 类 别 的 含义 不 言 而 喻 。Weka 中 有 两 种 Discretize 过 滤器 ， 它 们 的 区 别 是 : 有 监督 
的 离散 化 过 滤器 需要 考虑 类 别 属 性 及 其 在 数据 集中 的 分 布 ， 以 确定 最 佳 的 箱 数 及 箱 的 规 
模 ， 而 无 监督 的 离散 化 过 滤器 仅 依赖 于 用 户 指定 的 箱 数 。 

除 上 述 类 别 外 ， 过 滤器 还 可 分 为 流 式 过 滤器 或 基于 批量 处 理 的 过 滤器 。 流 式 过 滤器 可 
以 立即 处 理 数 据 ， 能 马上 提供 处 理 好 的 数据 ;批量 处 理 的 过 滤器 上 则 不 同 ， 需 要 批量 数据 
以 设置 其 内 部 数据 结构 。weka.filters.unsupervised.attribute 包 中 的 Add 过 滤器 是 一 种 流 式 过 
滤器 ， 它 不 需要 复杂 的 设置 ， 就 能 添加 一 个 只 含 缺 失 值 的 新 属性 。 然 而 ， 
ReplaceMissingValues 过 滤器 却 需要 批量 数据 以 确定 每 个 属性 的 均值 和 模式 。 否 则 ， 过 滤 
器 将 无 法 用 有 意义 的 值 来 代替 缺失 值 。 但 要 知道 ， 只 要 用 第 一 批 数据 来 初始 化 批量 过 滤器 
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之 后 ， 批 量 过 滤器 也 可 以 像 流 式 过 滤器 一 样 一 行 接 一 行 地 处 理 数 据 。 

就 处 理 数 据 的 方式 而 言 ， 基 于 实例 的 过 滤器 有 点 特殊 。 正 如 前 面 提 到 的 ， 当 首 批 数据 
通过 之 后 ， 所 有 过 滤器 都 能 一 行 接 一 行 地 处 理 数据 。 当 然 ， 如 果 需 要 过 滤器 从 批量 数据 中 
添加 或 删除 数 行 ， 这 就 不 可 能 再 工作 在 单行 处 理 模 式 下 。 设 想 这 样 一 个 使 用 
FilteredClassifier 元 分 类 器 的 场景 ， 当 第 一 批 数据 通过 之 后 ， 训 练 阶段 完成 ， 分 类 器 得 到 的 
评估 是 针对 测试 集 的 ， 每 次 一 个 实例 。 假 如 现在 过 滤器 删除 唯一 的 一 个 实例 ， 或 者 添加 多 
个 实例 ， 就 不 可 能 正确 地 进行 评估 ， 因 为 评估 只 期 望 得 到 唯一 的 一 个 结果 。 这 就 是 为 何 基 
于 实例 的 过 滤器 只 能 让 后 续 的 批量 数据 通过 而 不 能 作 任 何 处 理 的 原因 。 例 如 ，Resample 过 

如 下 示例 使 用 位 于 weka.filters.unsupervised.attribute 包 中 的 Remove 过 滤器 ， 来 删除 数 
据 集中 第 一 个 属性 。 调 用 setOptions(String[]) 方 法 来 设置 选项 。 


程序 清单 7.23 调用 setOptions(String[]) 方 法 


String[] options = new String[2]; 


options[0] = "-R"; // 范围 
options[1] = "1"; // 第 一 个 属性 
Remove remove = new Remove () ; // 构建 过 滤器 实例 
remove. setOptions (options); // 设置 选项 
remove.setInputFormat (data) 7 // 设置 输入 格式 
Instances newData = Filter.useFilter (data, remove); // 应 用 过 滤器 


这 里 有 一 个 经 常 犯错 的 陷阱 ， 那 就 是 在 调用 setInputFormat(Instances) 方 法 之 后 再 设置 
选项 。 这 样 就 无 法 得 到 正确 结果 ， 因 为 该 方法 通常 情况 下 用 于 确定 数据 的 输出 格式 ， 所 有 
选项 在 调用 前 必须 先 设置 好 ， 否 则 ， 将 忽略 以 后 设置 的 所 有 选项 。 


7.5.1 批量 过 滤 


如 果 两 个 或 更 多 的 数据 集 需 要 用 同样 的 初始 化 后 的 过 滤器 进行 处 理 ， 就 应 该 使 用 批量 
过 滤器 。 如 果 没 有 使 用 批量 过 滤器 ， 例 如 ， 当 使 用 weka.filters unsupervised.attribute 包 下 的 
StringToWordVector 过 滤器 生成 训练 集 和 测试 集 ， 那 么 该 过 滤器 的 两 次 运行 是 完全 独立 
的 ， 而 且 最 有 可 能 会 创建 两 个 不 兼容 的 数据 集 。 在 两 个 不 同 的 数据 集 上 运行 
StringToWordVector 过 滤器 ， 将 导致 产生 两 个 不 同 的 词典 ， 因 而 产生 不 同 的 属性 。 

如 下 代码 示例 显示 了 如 何 使 用 weka.filters.unsupervised.attribute 包 中 的 Standardize 过 
滤器 进行 标准 化 ， 即 把 所 有 数值 属性 转换 为 具有 零 均值 和 单位 方差 的 训练 集 和 测试 集 ， 代 
码 片 段 如 下 。 


程序 清单 7.24 ”使 用 Standardize 过 滤器 


Instances train = ... // 训练 集 
Instances test = ... // 测试 集 
Standardize filter = new Standardize(); 
// 使 用 训练 集 初始 化 一 次 过 滤器 
filter.setIinputFormat (train); 

// 基于 训练 实例 配置 过 滤器 并 返回 

// 过 滤 实 例 


Instances newTrain = Filter.useFilter (train, filter); 
// 创建 新 测试 集 


Instances newTest = Filter.useFilter (test, filter); 


7.5.2 即时 过 滤 


API 提供 用 户 对 数据 的 完全 控制 权 ， 使 得 同时 处 理 多 个 数据 集 更 为 容易 ， 此 外 ，Weka 
还 提供 一 种 称 为 即时 数据 过 滤 (Filtering on-the-fly) 的 方法 ， 这 种 过 滤 方 法 使 用 起 来 更 加 简 
单 。Weka 通过 诸如 weka.classifiers .meta 包 的 FilteredClassifier 分 类 器 、weka.clusterers 包 
的 FilteredClusterer 聚 类 器 、wekaassociations 包 的 FilteredAssociator 关联 器 ， 以 及 
weka.attributeSelection 包 的 FilteredAttributeEval 或 FilteredSubsetEval 属性 选择 器 等 元 方案 
提供 这 个 方便 的 功能 。 不 像 前 面 讲 述 得 需要 事先 过 滤 数 据 那样 ， 用 户 只 须 设置 元 方案 ， 并 
让 元 方案 一 次 完成 过 滤 工作 即 可 。 

如 下 示例 使 用 FilteredClassifier 分 类 器 和 Remove 过 滤器 删除 数据 集 的 第 一 个 属性 ， 这 
里 恰好 是 ID 属性 ， 并 使 用 weka.classifiers.trees 包 的 J48 作为 基 分 类 器 。 首 先 ， 用 训练 集 构 
建 一 个 分 类 器 ， 然 后 用 一 个 独立 的 测试 集 进行 评估 。 在 控制 台 上 打印 实际 和 预测 的 类 别 值 。 


程序 清单 7.25 即时 过 滤 代 码 片段 


Instances train = ... // 训练 集 
Instances test = ... // 测试 集 
// 过 滤器 


Remove rm = new Remove () 7 
rm.setAttributeIndices ("1"); // 删除 第 1 个 属性 
// 分 类 器 
J48 j48 = new J48(); 
j48.setUnpruned (true); // ”使 用 未 裁 彰 的 J48 
// 元 分 类 器 
Filteredclassifier fc = new FilteredClassifier (); 
fc.setFilter (rm) 7 
fc.setClassifier(]j48) 
// 训练 并 输出 模型 
fc.buildclassifier (train); 
System.out .println (fc); 
for (int i = 0; i < test.numInstances(); i++) { 
double pred = fc.classifyInstance (test.instance (i)); 
System.out .print ("编号 : " + (i + 1)); 
System.out .print ("， 实 际 类 别 : " 
+ test.classAttribute() .value( 
(int) test.instance(i).classValue())); 
System.out .println ("， 预 测 类 别 : " 
+ test.classAttribute() .value ((int) pred)); 
} 
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7.5.3 手把手 教 你 用 
1. 简单 过 滤器 
本 示例 展示 如 何 添加 一 个 数值 属性 和 一 个 标 称 属性 到 数据 集中 ， 并 用 随机 值 填充 后 输 


出 。 完 整 代码 如 程序 清单 7.26 所 示 ， 首 先 加 载 数 据 集 ， 然 后 分 别 添加 一 个 数值 属性 和 一 个 


标 称 属性 ， 最 后 用 随机 值 填充 新 增 的 两 个 属性 并 输出 数据 。 这 里 所 使 用 的 过 滤器 的 全 称 为 

weka.filters.unsupervised.attribute.Add ， 这 是 一 个 无 监督 的 添加 属性 过 滤器 ， 

setAttributeIndex 方法 设置 所 用 属性 的 索引 ，setAttributeName 方法 设置 新 属性 的 名 称 ， 

setNominalLabels 方法 设置 标 称 属性 的 标签 ，setInputFormat 方法 设置 输入 实例 的 格式 。 
程序 清单 7.26 AddFiltering.java 


Package wekalearning.filters; 


import 
import 
import 
import 
import 
. 太太 

* 添加 


uf 
public 


weka.core.Instances; 
weka.core.converters.ConverterUtils.Datasource; 
weka.filters.Filter; 
weka.filters.unsupervised.attribute.Agdd; 


java.util.Random; 


-个 数值 属性 和 一 个 标 称 属性 到 数据 集中 ， 并 用 随机 值 填充 后 输出 


class AddFiltering { 


public static void main(String[] args) throws Exception { 


// 加 载 数据 集 


Instances data = DataSource.read("C:/Weka-3- 


7/data/weather.numeric.arff"); 


Instances result = null; 


Add filter; 
result = new Instances (data); 


// 新 增 数值 属性 

filter = new Add(); 

filter.setAttributeIndex ("last"); 
filter.setAttributeName ("NumericAttribute"); 
filter.setInputFormat (result); 

result = Filter.useFilter(result, filter); 
// 新 增 标 称 属性 

filter = new Add(); 

filter.setAttributeIndex ("last"); 
filter.setNominalLabels ("A,B,C"); // 设置 标签 
filter.setAttributeName ("NominalAttribute"); 
filter.setInputFormat (result); 

result = Filter.useFilter(result, filter); 


// 用 随机 值 填充 新 增 的 两 个 属性 
Random rand = new Random(1234) > 
for (int i = 0; i < result.numInstances(); i++) { 
// 填充 数值 属性 
result.instance (i) .setValue (result .numAttributes() - 2, 
rand.nextDouble ()); 
// 填充 标 称 属性 
result .instance (i) .setValue (result .numAttributes() - 1, 
rand.nextInt (3) ); // 标签 索引 : A:0、B:1、C:2 
} 


// 输出 数据 
System. out.println ("过 滤 后 的 数据 集 : ") ; 
System.out.println (result); 


} 

运行 示例 后 ， 输 出 过 滤 后 的 数据 集 新 增 了 两 个 属性 ， 其 属性 值 为 随机 生成 的 值 。 

2. 批量 过 滤 

本 示例 展示 如 何 批量 过 滤 分 开 的 训练 集 和 测试 集 ， 其 中 ， 训 练 集 用 于 初始 化 过 滤器 ， 
测试 集 用 于 过 滤 数 据 。 完 整 代码 如 程序 清单 7.27 所 示 ， 首 先 加 载 数据 集 ， 然 后 使 用 训练 集 
对 过 滤器 进行 一 次 初始 化 ， 用 训练 集 来 配置 过 滤器 ， 并 返回 过 滤 后 的 训练 集 实例 ， 然 后 过 
滤 测 试 集 并 返回 过 滤 后 的 新 测试 集 ， 最 后 输出 过 滤 后 的 新 训练 集 和 测试 集 。 这 里 使 用 过 滤 
器 的 全 称 为 weka.filters.unsupervised.attribute.Standardize， 其 功能 为 标准 化 给 定数 据 集中 所 
有 的 数字 属性 ， 使 其 具有 零 均值 和 单位 方差 ， 如 果 设 置 了 类 别 属性 ， 则 忽略 之 。 


程序 清单 7.27 BatchFiltering.java 


Ppackage wekalearning.filters; 


import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.standardize; 


. 太太 
* 批量 过 滤 。 训 练 集 用 于 初始 化 过 滤器 ， 并 使 用 过 滤器 来 过 滤 测 试 集 
bl 


public class BatchFiltering { 


public static void main(String[] args) throws Exception { 
// 加 载 数 据 
Instances train = DataSource 
.read("C:/Weka-3-7/data/segment-challenge.arff"); 
Instances test = DataSource.read("C:/Weka-3-7/data/segment-test.arff"); 


// 过 滤 数据 
// 使 用 标准 化 过 滤器 
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} 


Standardize filter = new Standardize(); 

// 使 用 训练 集 一 次 初始 化 过 滤器 

filter.setInputFormat (train); 

// 基于 训练 集 配 置 过 滤器 ， 并 返回 过 滤 后 的 实例 

Instances newTrain = Filter.useFilter(train, filter); 
// 过 滤 并 创建 新 测试 集 


Instances newTest = Filter.useFilter(test，filter); 


// 输出 数据 集 

System. out.println ("新 训练 集 : ") ; 
System.out.println (newTrain); 
System. out.println ("新 测试 集 : ") ; 
System.out.println (newTest); 


3. 即时 过 渡 


本 示例 展示 如 何 使 用 FilteredClassifier 元 过 滤器 进行 即时 过 滤 。 完 整 代 码 如 程序 清单 
7.28 所 示 ， 代 码 首先 加 载 数据 ; 由 于 这 里 将 训练 集 和 测试 集 分 开 ， 因 此 需要 检查 这 两 个 数 
容 ，， 然后 使 用 Remove 过 滤器 删除 数据 集 的 第 一 个 属性 ， 并 使 用 未 裁剪 的 J48 
分 类 器 作为 元 分 类 器 FilteredClassifier 的 基 分 类 器 。 先 用 训练 集训 练 分 类 器 ， 然 后 对 独立 


据 集 是 否 漳 


的 测试 集 进行 评估 ， 并 在 控制 台 上 打印 实际 的 和 预测 的 类 别 值 。 
程序 清单 7.28 FilteringOnTheFlyjava 


Package wekalearning.filters; 


import weka.classifiers.meta.FilteredClassifier; 
import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.unsupervised.attribute.Remove; 


太太 


* 即时 过 滤 实 例 程序 。 演 示 如 何 使 用 Filteredclassifier 元 过 滤器 ， 
* 程序 使 用 了 Remove 过 滤器 和 J48 分 类 器 。 


sf 


public class FilteringonTheFly { 


public static void main(String[] args) throws Exception { 


// 加 载 数 据 


Instances train = DataSource 


.read("C:/Weka-3-7/data/segment-challenge.arff"); 
Instances test = DataSource.read("C:/Weka-3-7/data/segment-test.arff"); 


// 设置 类 别 属性 
train.setClassIndex (train.numAttributes() - 1); 
test .setClassIndex (test .numAttributes() - 1); 
// 检查 训练 集 和 测试 集 是 否 兼容 
if (!train.equalHeaders (test) ) 

throw new Exception ("训练 集 和 测试 集 不 兼容 : \n" 


+ train.equalHeadersMsg (test)); 


// 过 滤器 
Remove rm = new Remove () 7 
rm.setAttributeIndices ("1"); // 删除 第 1 个 属性 
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// 分 类 器 
J48 j48 = new J48(); 
j48.setUnpruned (true) ; // 使 用 未 裁剪 的 J48 


// 元 分 类 器 

FilteredClassifier fc = new FilteredClassifier(); 
fc.setFilter (rm); 

fc.setclassifier (j48); 


// 训练 并 预测 
fc.buildclassifier (train); 
for (int i = 0; i < test.numInstances(); i++) { 
double pred = fc.classifyInstance (test.instance (i)); 
System.out.print ("编号 : " + (i + 1)); 
System. out.print ("， 实 际 类 别 : " 
+ test.classAttribute() .value( 
(int) test.instance(i) .classValue())); 
System.out.println ("， 预 测 类 别 : " 
+ test.classAttribute() .value((int) pred)); 


由 于 本 例 需要 预测 测试 集 的 类 别 ， 因 此 一 定 要 设置 类 别 属性 ， 否 则 会 产生 运行 时 错 
误 。 另 外 ， 本 例 使 用 classifyInstance 方法 ， 功 能 是 对 给 定 的 测试 实例 进行 分 类 。 该 方法 的 
唯一 参数 是 要 进行 分 类 的 测试 实例 对 象 ， 方 法 的 返回 值 是 给 定 实例 最 有 可 能 的 预测 类 别 ， 
如 果 没 能 做 出 预测 ， 则 返回 Utils.missingValue()。 


7.6 分 类 


在 Weka 中 ， 分 类 和 回归 算法 都 称 为 “分 类 器 ”位 于 weka.classifiers 包 下 。 本 节 包 括 
以 下 三 个 主题 。 

第 一 ， 分 类 器 构建 : 批量 和 增 量 学 习 。 

第 二 ， 分 类 器 评估 : 各 种 评估 技术 ， 以 及 如 何 获取 生成 的 统计 信息 。 

第 三 ， 实 例 分 类 : 预测 未 知 数据 类 别 。 


7.6.1 分 类 器 构建 


所 有 的 Weka 分 类 器 都 设计 为 可 批量 训练 的 ， 即 分 类 器 对 整个 数据 集 一 次 就 能 训练 
好 ， 这 类 分 类 器 要 求 能 够 将 训练 数据 一 次 全 部 装 入 内 存 。 但 是 ， 也 有 一 些 算法 可 以 随时 随 
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地 更 新 自己 的 内 部 模型 。 这 类 分 类 器 称 为 增 量 分 类 器 ， 以 下 分 别 讲述 批量 分 类 器 和 增 量 分 
类 器 。 

批量 分 类 器 的 构建 非常 简单 ， 分 为 两 个 阶段 。 第 一 阶段 ， 设 置 选项 。 可 以 使 用 setOptions 
(String[]) 方 法 或 属性 的 set 方法 。 第 二 阶段 ， 进 行 训练 。 将 训练 集 作 为 参数 ， 调 用 
buildClassifier(Instances) 方法 。 根 据 定义 ， 该 方法 完全 复位 其 内 部 模型 ， 以 确保 该 方法 的 
后 续 调用 能 在 同一 个 模型 中 产生 相同 的 数据 结果 ， 即 能 进行 “可 重复 实验 ”。 程 序 清 
单 7.29 在 数据 集中 构建 未 裁剪 的 J48 决策 树 。 


程序 清单 7.29 ”构建 未 裁剪 的 J48 决策 树 代码 片段 


Instances data = ... // 训练 集 
String[] options = new String[1]; 

options[0] = "-U"; // 未 裁 前 树 

J48 tree = new J48(); // J48 分 类 器 对 象 


tree.setOptions (options) 7 // 设 置 选项 
tree.buildclassifier (data);  // 构建 分 类 器 


所 有 的 Weka 增 量 分 类 器 都 要 实现 位 于 weka.classifiers 包 中 的 UpdateableClassifier 接 
口 。Java 文档 讲述 了 哪些 分 类 器 实现 了 该 接口 ， 这 些 分 类 器 处 理 规 模 较 大 的 数据 时 可 以 只 
占用 较 小 的 存储 器 空间 ， 因 为 不 必要 一 次 将 训练 数据 加 载 进 内 存 。 例 如 ，ARFF 文件 可 以 
进行 增 量 读 。 
增 量 分 类 器 的 训练 也 分 为 两 个 阶段 。 第 一 阶段 ， 通 过 调用 buildClassifier(Instances) 方 
法 进行 模型 初始 化 。 用 户 可 以 使 用 weka.core.Instances 对 象 ， 不 带 实际 数据 或 者 带 一 个 初 
始 数据 集 。 第 二 阶段 ， 通 过 调用 updateClassifier(Instance) 方 法 ， 一 行 一 行 地 更 新 模型 。 

程序 清单 7.30 演示 了 如 何 使 用 ArffLoader 类 来 增 量 加 载 一 个 ARFF 文件 ， 并 一 次 一 行 
地 训练 NaiveBayesUpdateable 分 类 器 。 


程序 清单 7.30 增 量 分 类 器 的 训练 代码 片段 


// 加 载 数据 

ArffLoader loader = new ArffLoader (); 

loader.setFile (new File("/dir/data.arff")); 

Instances structure = loader.getstructure(); 
structure.setClassIndex (structure.numAttributes() - 1); 


// 训练 NaiveBayes 

NaiveBayesUpdateable nb = new NaiveBayesUpdateable(); 
nb.builqclassifier (structure); // 不 带 实际 数据 

Instance instance; 

while ((instance = loader.getNextInstance(structure)) != null) 
nb.updateClassifier (instance); 


7.6.2 分 类 器 评估 

构建 分 类 器 只 是 分 类 过 程 的 一 个 部 分 ， 另 一 个 重要 部 分 是 如 何 评估 其 分 类 性 能 。Weka 
支持 两 种 类 型 的 评估 。 第 一 类 ， 交 叉 验证 。 如 果 只 有 一 个 数据 集 ， 并 且 希 望 进行 一 个 贴近 
实际 的 评估 。 可 以 设置 与 数据 集 行 数 相 等 的 折 数 ， 这 就 是 留 一 法 交叉 验证 (LOOCV)。 第 二 


类 ， 专 用 测试 集 ， 该 测试 集 不 用 于 训练 ， 完 全 用 于 对 所 构建 的 分 类 器 进行 评估 。 有 一 个 采 
用 与 训练 集 相 同 (或 类 似 ) 概 念 的 测试 集 非 常 重要 ， 否 则 会 导致 其 性 能 表现 不 佳 。 

最 后 的 评价 步骤 包含 收集 统计 信息 ， 由 位 于 weka.classifiers 包 中 的 Evaluation 类 实施 。 

Evaluation 类 的 crossValidateModel 方法 用 于 对 未 经 训练 的 分 类 器 以 及 单一 数据 集 的 交 
叉 验 证 。 提 供 未 经 训练 的 分 类 器 ， 以 确保 没有 信息 泄露 给 实际 的 评估 器 。 虽 然 
buildClassifier 方法 重 置 分 类 器 是 实现 的 要 求 ， 但 不 能 保证 完全 能 够 做 到 这 一 点 。 使 用 未 经 
训练 的 分 类 器 能 够 避免 不 必要 的 副作用 ， 对 于 每 一 对 训练 集 和 测试 集 ， 最 好 使 用 初始 提供 
的 分 类 器 的 备份 。 

执行 交叉 验证 之 前 ， 先 使 用 提供 的 随机 数 发 生 器 (javautilRandom) 将 数据 随机 化 。 建 
议 该 数字 发 生 器 使 用 指定 的 种 子 值 作 为 随机 种 子 。 否 则 ， 由 于 数据 的 不 同 随机 化 ， 对 同一 
数据 集 的 交叉 验证 的 后 续 运 行 就 不 会 产生 相同 的 结果 。 

程序 清单 7.31 对 数据 集 newData 使 用 J48 决策 树 算 法 进行 十 折 交 叉 验 证 ， 随 机 数 产生 
器 的 种 子 为 “1234”， 收 集 到 的 统计 信息 总 结 输出 到 标准 输出 stdout。 


程序 清单 7.31 交叉 验证 代码 片段 

Instances newData = ... // 数据 集 

Evaluation eval = new Evaluation (newData) 

J48 tree = new J48(); 

eval .crossValidateModel (tree, newData, 10, new Random(1234)); 

System.out .println (eval.tosummarystring ("\n 结 果 \n\n", false)); 

本 例 中 的 Evaluation 对 象 使 用 评估 过 程 中 的 数据 集 进 行 初始 化 。 这 样 做 是 为 了 将 正在 
评估 的 数据 类 型 告知 评估 器 ， 确 保 所 有 的 内 部 数据 结构 得 以 正确 设置 。toSummaryString 方 
法 以 摘要 的 形式 输出 性 能 统计 数据 ， 第 一 个 参数 为 摘要 标题 ， 第 二 个 参数 为 是 否 打印 复杂 
的 性 能 统计 数据 。 

使 用 专用 的 测试 集 来 评估 分 类 器 与 交叉 验证 一 样 简单 。 但 肯定 需要 提供 一 个 训练 过 的 
分 类 器 ， 而 不 是 提供 一 个 未 经 训练 的 分 类 器 。 这 里 再 次 使 用 weka.classifiers.Evaluation 类 
来 执行 评估 ， 这 次 使 用 evaluateModel 方法 。 

程序 清单 7.32 使 用 J48 的 默认 选项 对 训练 集 进行 训练 ， 并 用 测试 集 对 它 进 行 评估 ， 然 
后 输出 收集 到 的 统计 信息 总 结 。 


程序 清单 7.32 ”专用 测试 集 评估 代码 片段 


Instances train = ... // 训练 集 
Instances test = ... // 测试 集 
// 训练 分 类 器 


Classifier classifier = new J48(); 

cls.buildclassifier (train); 

// 评估 分 类 器 并 打印 一 些 统计 信息 

Evaluation eval = new Evaluation (train); 

eval .evaluateModel (classifier, test); 

System.out.println (eval.tosummarystring ("\n 结 果 \n\n", false)); 


前 面 的 代码 示例 中 ， 己 经 使 用 了 Evaluation 类 的 toSummaryString 方法 。 除 这 个 方法 
外 ， 标 称 类 别 属性 还 有 其 他 的 总 结 方法 ， 列 示 如 下 。 
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1) toMatrixString 

输出 混淆 矩阵 。 

2) toClassDetailsString 

输出 TP/FP 率 、 查 准 率 、 查 全 率 、F- 度 量 、AUC( 每 个 类 别 )。 

3) toCumulativeMarginDistributionString 

输出 累计 边 距 分 布 。 

如 果 不 希 望 使 用 这 些 总 结 方法 ， 也 可 以 直接 访问 单个 的 统计 度量 。 下 面 列 出 一 些 常 见 
的 度量 。 

1) 标 称 类 别 属性 

e@ ”correct() 方 法 : 正确 分 类 的 实例 数量 。 不 正确 分 类 的 实例 数量 可 调用 incorrect() 方 


法 得 到 。 

e ”pctCorrect() 方 法 : 正确 分 类 的 实例 的 百分比 ( 查 准 率 )。pctIncorrect0 返 回 错误 分 类 
的 实例 的 百分比 。 

e ”areaUnderROC(int) 方法 : 指定 的 类 别 标签 索引 (基于 0 的 索引 ) 的 AUC。 

2) 数值 类 别 属 性 

correlationCoefficient() 方 法 : 相关 系数 。 

3) 通用 


meanAbsoluteError() 方 法 : 平均 绝对 误差 。 
rootMeanSquaredError() 方 法 : 均 方 根 误差 。 
numInstances() 方 法 : 类 别 值 的 实例 数量 。 
unclassified() 方 法 : 未 分 类 的 实例 数量 。 
pctUnclassified() 方 法 : 未 分 类 的 实例 的 百分比 。 
如 果 想 了 解 方法 的 更 完整 的 说 明 ， 请 参阅 Evaluation 类 的 Java 文档 。 通 过 查阅 上 述 总 
结 方法 的 源 代码 ， 用 户 可 以 容易 确定 在 何 种 输出 下 使 用 哪些 方法 。 


7.6.3 实例 分 类 


在 分 类 器 设置 已 经 评估 ， 并 证 明 其 能 够 满足 要 求 之 后 ， 所 构建 的 分 类 器 就 可 以 用 来 进 
行 预测 ， 并 且 对 没有 类 别 标签 的 数据 打上 标签 。 前 面 已 经 简单 介绍 了 如 何 使 用 一 个 分 类 器 
的 classifyInstance 方法 ， 本 节 将 进行 更 详细 的 阐述 。 

程序 清单 7.33 使 用 一 个 已 经 训练 过 的 分 类 树 ， 从 磁盘 加 载 数据 集 ， 将 所 有 没有 类 别 标 
签 的 实例 打上 标签 。 在 所 有 的 实例 贴 上 标签 之 后 ， 将 新 数据 集 写 入 到 磁盘 的 新 文件 中 。 


程序 清单 7.33 打上 类 别 标 签 的 代码 片段 
// 加 载 没 有 标签 的 数据 ， 并 设置 分 类 属性 


Instances unlabeled = DataSource.read("/dir/unlabeled.arff"); 
unlabeled.setClassIndex (unlabeled.numAttributes() - 1); 
// 创建 备份 
Instances labeled = new Instances (unlabeled); 
// 为 实例 贴 上 标签 
for (int i = 0; i < unlabeled.numInstances(); i++) { 
double clsLabel = tree.classifyInstance (unlabeled.instance (i)); 


labeled.instance (i) .setClassValue (clsLabel); 


} 
// 保存 贴 上 新 标签 的 数据 
Datasink.write("/dir/labeled.arff", labeled); 


在 上 面 的 示例 中 ， 分 类 和 回归 问题 的 工作 方式 是 一 致 的 ， 当 然 ， 只 要 分 类 器 能 够 处 理 
数值 型 类 别 。 这 是 为 什么 呢 ? classifyInstance(Instance) 方 法 对 于 数值 型 类 别 返 回回 归 值 ， 对 
于 标 称 型 类 别 返回 可 用 的 类 别 标签 列表 中 基于 0 的 索引 。 

如 果 对 类 别 的 分 布 感 兴趣 ， 用 户 可 以 使 用 distributionForInstance(Instance) 方 法 ， 该 方 
法 返回 一 个 总 和 为 1 的 数组 。 当 然 ， 使 用 该 方法 只 对 分 类 问题 才 有 意义 。 程 序 清单 7.34 在 
控制 台 输 出 类 别 的 分 布 ， 以 及 实际 标签 和 预测 标签 。 


程序 清单 7.34 输出 类 别 分 布 的 代码 片段 
// 加 载 数据 


Instances train = DataSource.read ("train.arff"); 

Instances test = DataSource.read("test.arff"); 
train.setClassIndex (train.numAttributes() - 1); 

test.setClassIndex (test.numAttributes() - 1); 

// 训练 分 类 器 

J48 cls = new J48(); 

cls.buildclassifier (train); 

// 输出 预测 

System.out .println ("编号 \t-\t 实际 \t-\t 预测 \t-\t 错误 \t-\t 分 布 ") ; 

for (int i = 0; i < test.numInstances(); i++) { 

double pred = cls.classifyInstance (test.instance (i)); 

double[] dist = cls.distributionForInstance (test.instance (i)); 
System.out.print ((i+1) + "一 "); 

System.out .print (test.instance (i) .toString (test.classIndex()) + " — "); 
System.out .Print (test.classAttribute() .value((int) pred) + " — "); 
System.out .println (Utils.arrayTostring (dist)); 

. 


7.6.4 手把手 教 你 用 


1. 批量 分 类 器 构建 

本 示例 采用 批量 方式 构建 一 个 J48 分 类 器 ， 并 输出 训练 好 的 决策 树 模型 。 完 整 代码 如 
程序 清单 7.35 所 示 ， 这 里 的 批量 分 类 器 的 构建 按 两 个 阶段 进行 ， 首 先 设置 选项 ， 然 后 进行 
训练 。 训 练 完成 后 ， 输 出 生成 的 模型 。 

程序 清单 7.35 BatchClassifierjava 


Package wekalearning.classifiers; 
import weka.classifiers.trees.J48; 
import weka.core.Instances; 


import weka.core.converters.ArffLoader; 


import java.io.File; 
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/ 法 法 
* 批量 方式 构建 J48 分 类 器 ， 并 输出 决策 树 模型 
a 

public class BatchClassifier { 


public static void main(String[] args) throws Exception { 
// 加 载 数据 
ArffLoader loader = new ArffLoader () 7 
loader.setFile (new File("C:/Weka-3-7/data/weather.nominal .arff")); 
Instances data = loader.getDataset (); 
data.setClassIndex (data.numAttributes() - 1); 


// 训练 J48 分 类 器 

String[] options = new String[1]; 
options[0] = "-U"; // 未 裁剪 树 选项 

J48 tree = new J48(); // J48 分 类 器 对 象 
tree.setOptions (options); // 设置 选项 
tree.buildclassifier (data) ; // 构建 分 类 器 


// 输出 生成 模型 


System.out.println (tree); 


} 


构建 批量 分 类 器 的 主要 方法 是 buildClassifier， 该 方法 用 于 生成 分 类 器 ， 所 带 的 参数 为 
训练 分 类 器 使 用 的 数据 集 。 
运行 程序 后 ， 输 出 如 下 的 J48 未 裁减 决策 树 。 


J48 unpruned tree 


outlook = sunny 

| humidity = high: no (3.0) 

| humidity = normal: yes (2.0) 
outlook = overcast: yes (4.0) 
outlook = rainy 

| windy = TRUE: no (2.0) 

| windy = FALSE: yes (3.0) 


Number of Leaves : 5 


Size of the tree : 8 
得 到 决策 树 后 ， 就 可 以 用 于 预测 新 的 数据 实例 的 类 别 。 
2. 增 量 分 类 器 构建 


与 批量 分 类 器 不 同 ， 增 量 分 类 器 必须 实现 UpdateableClassifier 接口 ， 该 接口 为 增 量 分 
类 模型 接口 ， 允 许 在 某 一 时 间 使 用 的 一 个 实例 进行 学 习 ， 而 不 要 求 必须 全 部 提供 学 习 的 实 
例 。 这 里 有 一 个 小 窍门 ， 如 果 不 知 道 某 个 分 类 器 是 否 支 持 增 量 模式 ， 只 要 看 看 分 类 器 的 类 
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是 否 实现 UpdateableClassifier 接口 就 知道 了 。 

完整 示例 代码 如 程序 清单 7.36 所 示 ， 程 序 中 训练 增 量 分 类 器 分 为 两 步 ， 首 先 调用 
buildClassifier(Instances) 方 法 进行 模型 初始 化 ， 这 里 的 参数 Instances 对 象 不 带 实际 数据 ， 
只 是 训练 集 的 结构 ， 然 后 调用 updateClassifier(Instance) 方 法 ， 所 带 的 参数 Instance 对 象 为 
增 量 实例 ， 这 样 就 一 行 一 行 地 对 模型 进行 增 量 更 新 。 


程序 清单 7.36 IncrementalClassifierjava 


package wekalearning.classifiers; 


import weka.classifiers.bayes.NaiveBayesUpdateable; 
import weka.core.Instance; 

import weka.core.Instances; 

import weka.core.converters.ArffLoader; 


import java.io.File; 


/太太 


* 增 量 方式 构建 NaiveBayes 分 类 器 ， 并 输出 生成 模型 


public class IncrementalClassifier { 


public static void main(String[] args) throws Exception { 


} 


// 加 载 数据 

ArffLoader loader = new ArffLoader (); 

loader.setFile (new File("C:/Weka-3-7/data/weather.nominal .arff")); 
Instances structure = loader.getstructure(); 
structure.setClassIndex (structure.numAttributes() - 1); 


// 训练 NaiveBayes 分 类 器 

NaiveBayesUpdateable nb = new NaiveBayesUpdateable(); 

nb.buildclassifier(structure); 

Instance instance; 

while ((instance = loader.getNextInstance(structure)) != null) 
nb.updateclassifier (instance); 


// 输出 生成 模型 
System.out.println (nb); 


运行 程序 后 的 输出 结果 如 下 。 


Naive Bayes Classifier 


Class 


Attribute yes no 


(0.63) (0.38) 


outlook 
sunny 
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overcast 5.0 i 

rainy 4.0 3.0 

[total] 12.0 8.0 
temperature 

hot 3.0 3.0 

mild 5.0 3350 

cool 4.0 2:0 

[total] 12.0 8.0 
humidity 

high 4.0 和 

normal 0 220 

[total] 20 7:0 
windy 

TRUE 6 4.0 

FALSE 7.0 3.0 

[total] iL Ts0 
3. 输出 类 别 分 布 


不 论 是 使 用 批量 模式 还 是 增 量 模式 构建 分 类 器 之 后 ， 就 该 对 新 的 样本 分 类 ， 为 新 样本 
数据 打上 类 别 标签 。 本 示例 使 用 训练 集 采 用 批量 模式 构建 J48 分 类 器 ， 然 后 预测 专用 测试 
集 的 类 别 ， 并 输出 测试 集中 实际 的 和 预测 的 类 别 标签 以 及 分 布 ， 完 整 代码 如 程序 清单 7.37 
所 示 。 

程序 首先 加 载 训练 集 和 测试 集 ， 然 后 使 用 训练 集 以 批量 方式 构建 分 类 器 ， 使 用 一 个 单 
循环 遍历 整个 测试 集 ， 调 用 J48 对 象 的 classifyInstance 方法 对 实例 进行 分 类 ， 返 回 double 
型 的 类 别 标签 ， 调 用 distributionForInstance 方法 返回 实例 的 类 别 概率 (double 型 的 数组 )。 
最 后 输出 实例 的 编号 、 实 际 类 别 、 预 测 类 别 、 是 否 错误 和 类 别 标签 的 分 布 。 


程序 清单 7.37 OutputClassDistribution java 


package wekalearning.classifiers; 


import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSsource; 


pe 二 二 

* 本 示例 用 训练 集 构建 J48 分 类 器 ， 预 测 测试 集 的 类 别 ， 并 输出 实际 的 和 预测 的 类 别 标 签 以 及 分 布 
天 六 

public class OutputClassDistribution { 


public static void main(String[] args) throws Exception { 
// 加 载 数据 
Instances train = DataSource 
.read("C:/Weka-3-7/data/segment—challenge.arff"); 


} 


Instances test = DataSource.read("C:/Weka-3-7/data/segment-test.arff"); 

// 设置 类 别 索 引 
train.setClassIndex (train.numAttributes() - 1); 
test.setClassIndex (test.numAttributes () - 1); 
// 检查 训练 集 和 测试 集 是 否 兼容 
if (!train.equalHeaders (test) ) 

throw new Exception (" 训 练 集 和 测试 集 不 兼容 : " 

+ train.equalHeadersMsg (test)); 


// 训练 分 类 器 
J48 classifier = new J48 () 7 
classifier.buildclassifier (train); 


// 输出 预测 
System. out.println ("编号 \t-\t 实际 \t-\t 预测 \t-\t 错误 \t-\t 分 布 ") ; 
for (int i = 0; i < test.numInstances(); i++) { 
// 得 到 预测 值 
double pred = classifier.classifyInstance (test.instance (i)); 
// 得 到 分 布 
double[] dist = classifier.distributionForInstance (test.instance(i)); 
System.out.print ((i + 1)); 
System.out.print (™ 一 "); 
System.out.print (test.instance (i) .tostring (test.classIndex ())); 
System.out.print (™ — "); 
System.out.print (test.classAttribute() .value ( (int) pred)); 
System.out.print (™ — "); 
// 判断 是 否 预 测 错误 
if (pred != test.instance (i) .classValue ()) 
System.out.print ("是 "); 
else 
System.out.print (" 否 "); 
System.out.print (™ — "); 
System.out.print (Utils.arrayTostring (dist)); 
System.out.println(); 


运行 程序 后 ， 在 控制 台 输出 如 下 信息 。 这 里 类 别 标签 的 分 布 是 一 个 数组 ， 采 用 逗号 分 
隔 的 七 个 double 型 数值 表示 ， 这 些 数值 的 总 和 为 1， 分 别 代表 类 别 标签 brickface、sky、 
foliage、cement、window、path、grass 的 概率 。 例 如 ， 在 编号 为 1 的 实例 中 ， 第 4 个 数值 
为 1.0， 表 明 分 类 器 非常 确信 应 该 将 第 1 个 实例 分 类 为 标签 cement， 而 编号 为 6 的 实例 
中 ， 分 类 器 只 有 约 86.7%(0.8666666666666667) 的 把 握 确定 第 6 个 实例 应 该 分 类 为 标签 


foliage。 


编号 - 
cement - cement -和 否 - 0.0,0.0,0.0,1.0,0.0,0.0,0.0 
path - path - 否 - 0.0,0.0,0.0,0.0,0.0,1.0,0.0 
yrass. 一 人 ass = 否 - 0.0,0.0,0.0,0.0,0.0,0.0,1.0 
Grass = grass =— 否 - 0.0,0.0,0.0,0.0,0.0,0.0,1.0 


心 w ID 


实际 - 预 则 - 错误 - 分 布 
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5 - window - window - 否 - 0.0,0.0,0.0,0.0,1.0,0.0,0.0 

6 - foliage - foliage - 否 - 
0.0,0.0,0.8666666666666667,0.0,0.13333333333333333,0.0,0.0 
7 - brickface - brickface - 否 - 
0.98989898989899,0.0,0.0,0.0,0.010101010101010102, 0.0,0.0 


4. 单 次 运行 交叉 验证 

在 没有 专用 测试 集 的 条 件 下 ， 使 用 交叉 验证 是 常用 的 方法 。 本 示例 展示 如 何 将 一 个 数 
据 集 划 分 为 训练 集 和 测试 集 ， 并 使 用 交叉 验证 以 获取 分 类 器 的 性 能 。 

完整 代码 如 程序 清单 7.38 所 示 ， 代 码 前 面部 分 的 加 载 数据 、 选 项 设置 和 随机 化 打 乱 数 
据 顺 序 都 已 经 学 习 过 ， 因 此 不 再 重复 说 明 。 代 码 的 核心 是 如 何 进行 十 折 交 叉 验 证 ， 本 示例 
使 用 一 个 循环 ， 循 环 体内 部 划分 训练 集 和 测试 集 ， 分 别 调用 Instances 对 象 的 trainCV 方法 
和 testCV 方法 ， 前 者 在 数据 集中 划分 一 折 出 去 ， 剩 下 的 作为 训练 集 ， 方 法 的 第 一 个 参数 为 
交叉 验证 的 折 数 ， 必 须 大 于 1， 第 二 个 参数 为 划分 出 来 的 第 几 折 ， 这 里 0 为 第 一 折 ，1 为 
第 二 折 ， 以 此 类 推 ， 后 者 在 数据 集中 划分 一 折 出 来 作为 测试 集 ， 方 法 的 第 一 个 参数 为 交叉 
验证 的 折 数 ， 必 须 大 于 1， 第 二 个 参数 为 划分 出 来 的 第 几 折 ， 这 里 0 为 第 一 折 ，1 为 第 二 
折 ， 以 此 类 推 。 

由 于 每 一 折 都 需要 运行 一 次 验证 ， 十 折 交 叉 验 证 就 要 运行 十 次 。 从 前 文 已 经 知道 ， 交 
叉 验证 最 好 使 用 未 经 训练 的 分 类 器 ， 以 避免 不 必要 的 副作用 ， 每 次 循环 都 使 用 初始 提供 的 
分 类 器 的 复制 。 这 里 调用 AbstractClassifier 类 的 makeCopy 方法 ， 使 用 序列 化 进行 分 类 器 
的 深层 备份 ， 即 深 复制 。 然 后 调用 Classifier 对 象 的 buildClassifier 方法 构建 分 类 器 ， 调 用 
Evaluation 对 象 的 evaluateModel 方法 对 分 类 器 进行 评估 ， 最 后 输出 评估 结果 。 


程序 清单 7.38 RunOnceCVjava 


Ppackage wekalearning.classifiers; 


import weka.classifiers.AbstractCclassifier; 

import weka.classifiers.Classifier; 

import weka.classifiers.Evaluation; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSsource; 


import java.util.Random; 


/ 太太 
* 执行 单 次 运行 的 十 折 交 叉 验证 
public class RunoncecCV { 


public static void main(String[] args) throws Exception { 
// 加 载 数据 
Instances data = DataSource.read("C:/Weka-3-7/data/ionosphere.arff"); 
// 设置 类 别 索 引 
data.setClassIndex (data.numAttributes() - 1) 7 


// 分 类 器 
String[] options = new String[2]7 
String classname = "weka.classifiers.trees.J48"; 


options[0] = "-C"; ”// 默认 参数 

options[1] = "0.25"; 

Classifier classifier = (Classifier) Utils.forName(Classifier.class, 
classname, options); 


// 其 他 选项 

int seed = 1234; // 随机 种 子 
int folds = 10; // 折 数 
// 随机 化 数据 


Random rand = new Random (seed) 

Instances newData = new Instances (data); 

newData.randomize (rand) 

// 如 果 类 别 为 标 称 型 ， 则 根据 其 类 别 值 进行 分 层 

if (newData.classAttribute() .isNominal () ) 
newData.stratify (folds); 


// 执行 交叉 验证 

Evaluation eval = new Evaluation (newData); 

for (int i = 0; i < folds; i++) { 
// 训练 集 
Instances train = newData.trainCcV (folds, i); 
// 测试 集 


Instances test = newData.testCV (folds, i); 


// 构建 并 评估 分 类 器 

Classifier clsCopy = AbstractClassifier.makeCopy (classifier); 
clsCopy.buildclassifier (train); 

eval .evaluateModel (clsCopy, test); 


} 


// 输出 评估 

System.out.println(); 

System. out.println (" 一 = 分 类 器 设置 ==="); 

System. out.println(" 分 类 器 : " + Utils.toCommandLine(classifier)); 
System. out.println ("数据 集 : " + data.relationName ()); 

System. out.println(" 折 数 : " + folds); 

System. out.println ("随机 种 子 : " + seed); 

System.out.println(); 

System.out.println (eval.tosummarystring("=== " + folds 


+ “" 折 交叉 验证 一 ="，false)); 


} 


运行 程序 后 ， 在 控制 台 输出 分 类 器 设置 和 评估 结果 ， 得 到 如 下 结果 。 


一 = 分 类 器 设置 一 = 
分 类 器 : weka.classifiers.trees.J48 -C 0.25 -M2 
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数据 集 : ionosphere 


折 数 : 10 

随机 种 子 : 1234 

一 - 十 折 交 又 验证 一 

Correctly Classified Instances 319 90.8832 儿 
Incorrectly Classified Instances 32 多 < 和 8 各 
Kappa statistic W799E 

Mean absolute error 0.1016 

Root mean squared error 0:2959 

Relative absolute error 22.0646 $ 

Root relative squared error 61.686 % 

Coverage of cases (0.95 level) 92.3077 % 

Mean rel. region size (0.95 level) 52.849 $% 

Total Number of Instances 351 

5. 交叉 验证 并 预测 


如 果 交 叉 验 证 后 ， 挖 掘 者 满意 分 类 器 的 性 能 ， 就 可 以 用 训练 好 的 分 类 器 对 未 知 类 别 的 
新 样本 进行 预测 。 

本 示例 在 前 一 个 示例 的 基础 上 添加 预测 的 功能 ， 完 整 代码 如 程序 清单 7.39 所 示 。 由 于 
在 前 一 个 示例 中 己 经 叙述 了 如 何 构 建 分 类 器 以 及 使 用 交叉 验证 对 其 进行 评估 这 些 技 术 细 
节 ， 本 示例 主要 叙述 如 何 进行 预测 。 程 序 使 用 AddClassification 过 滤器 对 象 ， 该 过 滤器 使 
用 分 类 器 对 数据 集 添 加 一 个 类 别 、 类 别 分 布 和 错误 标志 ， 分 类 器 可 以 用 数据 本 身 进 行 训 
练 ， 也 可 以 作为 序列 化 模型 提供 。 本 例 调 用 了 AddClassification 对 象 的 多 个 方法 来 设置 过 
滤器 ， 其 中 ，setClassifier 方法 设置 对 实例 分 类 的 分 类 器 ，setOutputClassification 方法 设置 
是 否 输出 分 类 器 的 分 类 ，setOutputDistribution 方法 设置 是 否 输出 分 类 器 的 分 布 ， 
setOutputErrorFlag 方法 设置 是 否 输出 分 类 器 的 错误 标志 ，setInputFormat 方法 设置 输入 实例 
的 格式 ， 同 时 复位 过 滤器 的 状态 。 然 后 ， 程 序 调用 Filter 类 的 useFilter 方法 用 已 经 设置 好 
的 过 滤器 对 整个 实例 集合 进行 过 滤 ， 并 返回 过 滤 后 的 新 数据 集 ， 最 后 写 入 数据 文件 。 


程序 清单 7.39 CvVPrediction.java 


Package wekalearning.classifiers; 


import weka.classifiers.AbstractClassifier; 

import weka.classifiers.Classifier; 

import weka.classifiers.Evaluation; 

import weka.core.Instances; 

import weka.core.OptionHandler; 

import weka.core.Utils; 

import weka.core.converters .ConverterUtil1s.DataSink7 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.Filter; 

import weka.filters.supervised.attribute.AddClassification; 


import java.util.Random; 


* 执行 单 次 交叉 验证 ， 并 将 预测 结果 保存 为 文件 


public class CVPrediction { 


public static void main(String[] args) throws Exception { 


// 加 载 数 据 

Instances data = DataSource.read("C:/Weka-3-7/data/ionosphere.arff") 
// 设置 类 别 索 引 

data.setClassIndex (data.numAttributes() - 1) 7 


// 分 类 器 

String[] tmpOptions = new String[2]; 

String classname = "weka.classifiers.trees.J48"; 

tmpoptions[0] = "-C"; // 默认 参数 

tmpoptions[1] = "0.25"; 

Classifier classifier = (Classifier) Utils.forName(Classifier.class, 
classname, tmpOptions); 


// 其 他 选项 

int seed = 1234; // 随机 种 子 
int folds = 10; // 折 数 
// 随机 化 数据 


Random rand = new Random (seed); 

Instances newData = new Instances (data); 

newData.randomize (rand) 

// 如 果 类 别 为 标 称 型 ， 则 根据 其 类 别 值 进行 分 层 

if (newData.classAttribute() .isNominal () ) 
newData.stratify (folds); 


// 执行 交叉 验证 ， 并 添加 预测 
Instances predictedData = nul1; “ // 预测 数据 
Evaluation eval = new Evaluation (newData) 
for (int i = 0; i < folds; i++) { 
// 训练 集 
Instances train = newData.trainCV (folds, i); 
// 测试 集 


Instances test = newData.testCV (folds, i); 


// 构建 并 评估 分 类 器 

Classifier clsCopy = AbstractCclassifier.makeCopy (classifier); 
clsCopy.buildclassifier (train); 

eval .evaluateModel (clsCopy, test); 


// 添加 预测 

Addclassification filter = new AddClassification(); 
filter.setClassifier (classifier); 
filter.setoutputCclassification (true); 
filter.setoutputDistribution (true); 
filter.setoutputErrorFlag (true); 
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filter.setInputFormat (train) 7 

// 训练 分 类 器 
Filter.useFilter(train, filter); 
// 在 测试 集 上 预测 


Instances pred = Filter.useFilter(test, filter); 


if (predictedData 一 null) 
predictedData = new Instances (pred，0); ”// 防止 预测 数据 集 为 空 
for (int j = 0; j < pred.numInstances () ; j++) 
PredictedData.add(pred.instance (j)); 
} 


// 评估 结果 输出 
System.out.println(); 
System. out.println ("一 = 分 类 器 设置 ===") ; 
// 分 类 器 是 否 实现 OptionHandler 接口 ? 
if (classifier instanceof OptionHandler) 
System. out.println(" 分 类 器 : " + classifier.getCclass() .getName() +"" 
+ Utils.joinoptions(( (OptionHandler) classifier) .getOptions())); 
else 
System.out.println ("分 类 器 : " + classifier.getClass() .getName ()); 
System. out.println ("数据 集 : " + data.relationName ()); 
System. out.println(" 折 数 : " + folds); 
System. out.println ("随机 种 子 : " + seed); 
System.out.println(); 
System.out.println (eval.tosummaryString("=== " + folds 


+ " 折 交 叉 验证 一 ="，false) ) ; 


// 写 入 数据 文件 
Datasink.write("d:/predictions.arff", predictedData); 


} 


运行 程序 后 ， 控 制 台 会 输出 评估 结果 ， 并 且 会 保存 预测 的 数据 文件 。 使 用 Weka 的 
ArffViewer 工具 打开 数据 文件 ， 可 以 看 到 在 原 数据 文件 的 基础 上 ， 顺 序 添加 了 名 称 为 
classification、distribution b、distribution g 和 error 四 个 属性 ， 分 别 表 示 预 测 的 类 别 、 预 测 
为 b 的 分 布 、 预 测 为 g 的 分 布 以 及 错误 标志 ， 如 图 7.6 所 示 。 


ARFF-Viewer 
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图 7.6 预测 的 数据 文件 


6. 多 次 运行 交叉 验证 

单 次 的 十 折 交 叉 验 证 不 一 定 能 得 到 可 靠 的 误差 估计 ， 采 用 同样 的 学 习 算法 ， 在 同样 数 
据 集 上 运行 多 次 的 十 折 交 叉 验 证 ， 通 常会 得 到 更 符合 实际 的 结果 。 获 得 准确 的 误差 估计 的 
标准 方式 是 重复 10 次 的 交叉 验证 ， 即 10 次 十 折 交 叉 验 证 ， 这 样 就 一 共 运行 了 100 次 ， 然 
后 取 平 均值 。 可 见 ， 要 获得 好 的 测试 结果 需要 密集 型 的 计算 。 

本 示例 在 前 面 的 十 折 交 叉 验 证 的 基础 上 加 一 个 外 循环 ， 实 现 10 次 运行 的 十 折 交 叉 验 
证 。 完 整 代 码 如 程序 清单 7.40 所 示 ，10 次 十 折 交 叉 验 证 的 关键 是 随机 种 子 的 选择 ， 能 进 
行 可 重复 性 实验 这 一 条 件 要 求 每 次 运行 十 折 交 叉 验证 的 随机 种 子 要 固定 下 来 ， 并 且 每 次 的 
随机 种 子 要 和 其 他 次 的 种 子 有 所 不 同 ， 这 样 才能 得 到 较 好 的 测试 结果 。 因 此 ， 本 示例 采用 
一 种 简单 的 方式 ， 把 循环 次 数 与 一 个 常数 (这 里 取 1234) 的 和 作为 每 次 运行 交叉 验证 的 随机 
种 子 。 


程序 清单 7.40 RunTenTimesCVjava 


Package wekalearning.classifiers; 


import weka.classifiers.AbstractClassifier; 

import weka.classifiers.Classifier; 

import weka.classifiers.Evaluation; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSource; 


import java.util.Random; 


a 太太 
* 执行 10 次 运行 的 十 折 交 叉 验 证 


public class RunTenTimesCV { 


public static void main(string[] args) throws Exception { 


// 加 载 数 据 
Instances data = DataSource.read("C:/Weka-3-7/data/labor.arff"); 
// 设置 类 别 索 引 
data.setCclassIndex (data.numAttributes() - 1); 
// 分 类 器 
String[] tmpoptions = new String[2]; 
String classname = "weka.classifiers.trees.J48"; 


tmpoptions[0] = "-C"; // 默认 参数 

tmpoptions[1] = "0.25"; 

Classifier classifier = (Classifier) Utils.forName(Classifier.class, 
classname, tmpoptions); 


// 其 他 选项 
int runs = 10; // 运行 次 数 
int folds = 10; // 折 数 
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// 执行 交叉 验证 
for (int i = 0; i < runs; i++) { 
// 随机 化 数据 
int seed = i + 1234; // 随机 种 子 
Random rand = new Random (seed) 
Instances newData = new Instances (data); 
newData.randomize (rand); 
// 如 果 类 别 为 标 称 型 ， 则 根据 其 类 别 值 进行 分 层 
if (newData.classAttribute() .isNominal ()) 
newData.stratify (folds); 


Evaluation eval = new Evaluation (newData); 
for (int j = 0; j < folds; j++) { 
// 训练 集 
Instances train = newData.trainCcV (folds, j); 
// 测试 集 
Instances test = newData.testCV (folds, j); 


// 构建 并 评估 分 类 器 

Classifier clsCopy = AbstractClassifier.makeCopy (classifier); 
clsCopy .buildclassifier (train); 

eval .evaluateModel (clsCopy, test); 


} 


// 评估 结果 输出 
System.out.println(); 
System. out.println ("= 一 运行 第 " + (i + 1) + "次 的 分 类 器 设置 ==="); 
System.out.println ("分 类 器 : " + Utils.toCommandLine(classifier)); 
System.out.println ("数据 集 : " + data.relationName ()); 
System.out.println(" 折 数 : " + folds); 
System.out.println ("随机 种 子 : " + seed); 
System.out.println(); 

System.out.println (eval.toSummaryString ("= 


+ " 折 交 叉 验 证 运行 第 " + (i + 1) + "次 


"+ folds 
—", false)); 


} 
运行 程序 后 ， 在 控制 台 打 印 每 次 运行 的 分 类 器 设置 以 及 评估 结果 。 


7.7 聚 类 


聚 类 是 一 种 在 数据 中 发 现 模式 的 无 监督 机 器 学 习 技 术 ， 也 就 是 说 ， 这 些 算法 没有 类 别 
属性 。 与 分 类 不 同 ， 分 类 算法 需要 一 个 类 别 属性 ， 是 有 监督 的 机 器 学 习 技 术 。 本 节 讲 述 以 
下 三 个 主题 。 

第 一 ， 聚 类 器 构建 :批量 和 增 量 学 习 。 

第 二 ， 聚 类 器 评估 : 如 何 评估 一 个 已 构建 的 聚 类 器 。 

第 三 ， 聚 类 实例 : 确定 未 知 的 实例 属于 哪些 簇 。 


@ 


7.7.1 聚 类 器 构建 


与 分 类 器 一 样 ， 聚 类 器 也 是 为 批量 训练 而 设计 的 。 也 就 是 说 ， 它 们 都 可 以 使 用 完全 调 
入 到 内 存 中 的 数据 进行 构建 。 此 外 ， 聚 类 算法 中 有 一 个 很 小 的 子 集 也 能 增 量 更 新 其 内 部 表 
示 ， 这 就 是 增 量 聚 类 器 。 以 下 分 别 讲述 批量 聚 类 器 和 增 量 聚 类 器 。 

和 构建 批量 分 类 器 一 样 ， 构 建 批量 聚 类 器 也 分 为 两 个 阶段 。 第 一 阶段 ， 设 置 选 项 。 可 
以 调用 setOptions(String[]) 方 法 ， 或 调用 相应 属性 的 set 方法 ， 第 二 阶段 ， 使 用 训练 数据 构 
建 模型 。 调 用 buildClusterer(Instances) 方 法 ， 根 据 定义 ， 该 方法 的 后 续 调 用 必须 能 够 导致 同 
样 的 模型 ， 即 能 进行 “可 重复 实验 ”。 换 名 话说， 调用 该 方法 必须 使 模型 完全 重 置 。 

程序 清单 7.41 是 构建 一 个 最 多 迭 代 100 次 的 EM 聚 类 器 的 示例 ， 调 用 
setOptions(String[]) 方 法 设置 选项 。 


程序 清单 7.41 构建 EM 聚 类 器 代码 片段 


Instances data = ... // 数据 集 
String[] options = new String[2]; 

options[0] = "-I"; // 最 大 迁 代 次 数 
options[1] = "100"; 

EM clusterer = new EM(); // 聚 类 器 的 新 实例 


clusterer.setOptions (options) 7 // 设置 选项 
clusterer.buildclusterer (data); ”// 构建 聚 类 器 


Weka 的 增 量 聚 类 器 实现 weka.clusterers 包 的 UpdateableClusterer 接口 。 类 似 于 增 量 分 
类 器 ， 增 量 聚 类 器 的 训练 分 三 个 阶段 。 第 一 阶段 ， 通 过 调用 buildClusterer(Instances) 方法 
初始 化 模型 。 用 户 可 以 使 用 一 个 空 weka.core.Instances 对 象 ， 或 者 一 个 初始 数据 集 。 第 二 
阶段 ， 调 用 updateClusterer(Instance) 方 法 一 行 接 一 行 地 更 新 模型 。 第 三 阶段 ， 调 用 
updateFinished() 方 法 完成 训练 ， 也 许 聚 类 算法 还 要 进行 高 计算 强度 的 后 处 理 或 清理 操作 。 

程序 清单 7.42 中 ， 使 用 ArffLoader 对 象 加 载 数据 集 并 增 量 构建 Cobweb 聚 类 器 。 


程序 清单 7.42 ” 增 量 构建 聚 类 器 代码 片段 


// 加 载 数据 

ArffLoader loader = new RrffLoader (); 

loader.setFile (new File("/dir/data.arff")); 

Instances structure = loader.getstructure(); 

// 训练 Cobweb 

Cobweb cw = new Cobweb(); 

cw.buildCclusterer (structure); 

Instance current; 

while ((current = loader .getNextInstance (structure)) != null) 
cw.updateClusterer (current); 

cw.updateFinished(); 


7.7.2 聚 类 器 评估 
聚 类 器 评估 不 像 分 类 器 评估 那样 容易 做 得 很 全 面 。 由 于 聚 类 是 无 监督 的 ， 因 此 很 难 确 
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定 一 个 模型 的 性 能 到 底 有 多 好 。Weka 用 于 评估 聚 类 算法 的 是 weka.clusterers 包 的 
ClusterEvaluation 类 。 

为 了 在 探索 者 界面 和 命令 行 都 能 产生 相同 的 输出 ， 可 以 调用 evaluateClusterer 方法 ， 
代码 片断 见 程序 清单 7.43 。 


程序 清单 7.43 聚 类 器 评估 代码 片段 

String[] options = new String[2]; 

options[0] = "-t"; 

options[1] = "/dir/somefile.arff"; 

System.out .println (ClusterEvaluation.evaluateClusterer (new EM(), options)); 


或 者 ， 如 果 数 据 集 已 经 在 内 存 中 ， 可 以 用 程序 清单 7.44 所 示 的 方法 。 


程序 清单 7.44 评估 内 存 数据 的 聚 类 器 代码 片段 


Instances data = ... // 数据 集 

EM cl = new EM(); 

cl.buildclusterer (data); 

ClusterEvaluation eval = new ClusterEvaluation(); 
eval.setClusterer (c1); 

eval .evaluateClusterer (new Instances (data)); 
System.out.println (eval.clusterResultsToString ()); 


基于 密度 的 聚 类 器 ， 即 实现 weka.clusterers 包 的 DensityBasedClusterer 接口 的 算法 ， 能 
够 进行 交叉 验证 ， 并 获取 对 数 似 然 。 任 何 非 基于 密度 的 聚 类 器 ， 使 用 
MakeDensityBasedClusterer 元 聚 类 器 都 可 以 转化 为 这 一 类 。 如 下 示例 展示 了 一 个 基于 密度 
的 聚 类 器 的 交叉 验证 ， 并 获取 对 数 似 然 ， 代 码 片 段 如 下 : 


程序 清单 7.45 基于 密度 的 聚 类 器 代码 片段 


Instances data = ... // 数据 集 

DensityBasedClusterer clusterer = new ... // 要 评估 的 聚 类 器 

double logLikelyhood =ClusterEvaluation.crossValidateModel( // 交叉 验证 
clusterer, data, 10, // 10 折 
new Random(1234)); // 种 子 为 1 的 随机 数 发 生 器 


提供 给 有 监督 的 算法 (如 分 类 器 ) 的 数据 集 ， 也 可 用 于 评估 聚 类 器 。 由 于 在 算法 中 将 艇 
映射 回 类 别 ， 这 种 评估 称 为 classes-to-clusters( 类 别 到 簇 )。 

这 种 评估 按照 以 下 步骤 进行 。 

第 一 ， 创 建 包 含 类 别 属性 的 数据 集 的 一 个 副本 ， 并 使 用 
weka.filters.unsupervised.attributeRemove 包 的 过 滤器 删除 类 别 属性 。 

第 二 ， 建 立新 的 数据 构建 聚 类 器 。 

第 三 ， 使 用 原始 数据 对 聚 类 器 进行 评估 。 

可 以 将 上 述 步骤 翻译 成 代码 ， 使 用 EM 作为 要 评估 的 聚 类 器 。 步 又 如 下 。 

第 一 步 ， 创 建 没 有 类 别 属 性 数据 的 副本 : 

Instances data = ... // 数据 集 


Remove filter = new Remove () > 
filter.setAttributeIndices("" + (data.classIndex() + 1)); 


filter.setInputEFormat (data); 
Instances dataClusterer = Filter.useFilter(data, filter); 


第 二 步 ， 构 建 聚 类 器 : 


EM clusterer = new EM(); 
// 如 果 有 必要 ， 进 一 步 设置 EM 选项 


clusterer.buildClusterer (dataClusterer) 


第 三 步 ， 评 估 聚 类 器 : 


ClusterEvaluation eval = new ClusterEvaluation(); 
eval.setClusterer (clusterer); 

eval .evaluateClusterer (data); 

// 打印 结果 


System.out .println (eval.clusterResultsTostring ()); 


7.7.3 ”实例 聚 类 
实例 聚 类 与 使 用 分 类 器 的 对 未 知 的 实例 进行 分 类 非常 相似 。 涉 及 以 下 两 种 方法 。 


1) clusterInstance(Instance) 

确定 实例 隶属 于 哪个 簇 。 

2) distributionForInstance(Instance) 

预测 实例 隶属 于 簇 的 隶属 度 。 该 数组 的 总 和 为 1。 

程序 清单 7.46 所 示 的 示例 展示 如 何 用 一 个 数据 集训 练 EM 聚 类 器 ， 并 循环 输出 对 第 二 
个 数据 集 的 单个 实例 进行 预测 所 属 簇 以 及 簇 隶 属 度 。 


程序 清单 7.46 聚 类 实例 代码 片段 


. // 第 一 个 数据 集 
. // 第 二 个 数据 集 


Instances datasetl 
Instances dataset2 
// 构建 聚 类 器 
EM clusterer = new EM(); 
clusterer .buildclusterer (dataset]1); 
// 输出 预测 
System.out.println("# - cluster - distribution"); 
for (int i = 0; i < dataset2.numInstances(); i++) { 
int cluster = clusterer.clusterInstance (dataset?2.instance (i)); 
double[] dist = clusterer.distributionForInstance (dataset?2.instance (i)); 
System.out .print ((i+1)); 
System.out.print (™ — ")7 
System.out .Print (cluster); 
System.out .print("” — "); 
System.out .print (Utils.arrayTostring (dist)); 
System.out .Println() 7 


7.7.4 手把手 教 你 用 


1. 批量 聚 类 器 构建 
构建 批量 聚 类 器 和 构建 批量 分 类 器 的 步骤 一 样 ， 都 分 为 两 个 步骤 ， 先 设置 选项 ， 然 后 
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使 用 训练 数据 构建 模型 。 完 整 的 批量 训练 EM 算法 代码 如 程序 清单 7.47 所 示 ， 程 序 不 难 理 
解 ， 调 用 setOptions 方法 解析 传 入 的 参数 数组 ， 调 用 buildClusterer 方法 生成 聚 类 器 ， 如 果 
聚 类 器 的 某 些 字段 没有 通过 选项 设置 ， 在 这 一 步 就 会 初始 化 这 些 字段 。 


程序 清单 7.47 BatchClustererjava 


package wekalearning.clusterers; 


import weka.core.Instances; 
import weka.core.converters.ArffLoader; 
import weka.clusterers .EM; 


import java.io.File; 


/** 

* 批量 训练 EM 算法 

Sp 

public class BatchClusterer { 


public static void main(String[] args) throws Exception { 
// 加 载 数据 
ArffLoader loader = new ArffLoader (); 
loader.setFile (new File("C:/Weka-3-7/data/contact-lenses.arff")); 
Instances data = loader.getDataset (); 


// 构建 聚 类 器 

String[] options = new String[2]; 
options[0] = "-I"; // 最 大 迭 代 次 数 
options [1] = "100"; 

EM clusterer = new EM() ; // 聚 类 器 的 新 实例 
clusterer.setoptions (options); // 设置 选项 
Clusterer.buildCclusterer (data); 


// 输出 生成 模型 


System. out.println(clusterer) 7 
} 


2. 增 量 聚 类 器 构建 


前 文 已 经 讲述 过 ，Weka 的 增 量 聚 类 器 必须 实现 wekaclusterers 包 的 
UpdateableClusterer 接口 。 如 果 挖 掘 者 不 知道 哪些 聚 类 器 算法 可 以 用 于 增 量 模式 ， 只 要 看 
看 UpdateableClusterer 接口 API 文档 即 可 ， 但 到 目前 为 止 ，Weka 实现 该 接口 的 算法 只 有 
Cobweb。 

训练 增 量 聚 类 器 比 批量 聚 类 器 的 程序 稍微 复杂 一 点 ， 完 整 代 码 如 程序 清单 7.48 所 示 。 
首先 调用 buildClusterer(Instances) 方法 初始 化 聚 类 器 模型 ， 这 里 使 用 一 个 空 
weka.core.Instances 对 象 ， 然 后 使 用 一 个 循环 调用 updateClusterer(Instance) 方 法 ， 一 行 一 行 
地 更 新 模型 ， 最 后 调用 updateFinished() 方 法 完成 训练 。 

当然 ， 为 了 查看 生成 的 模型 ， 还 需要 在 控制 台 输 出 。 
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程序 清单 7.48 JncrementalClustererjava 


package wekalearning.clusterers; 


import weka. 
import weka. 
import weka. 
import weka. 


import java. 


/太太 


Core.Instance; 
Core.Instances; 
Core.converters .ArffLoader; 
clusterers .Cobweb; 


io.File; 


* 增 量 训练 Cobweb 算法 


本 


public class IncrementalClusterer { 


Ppublic static void main(String[] args) throws Exception { 
// 加 载 数据 
ArffLoader loader = new ArffLoader (); 
loader.setFile (new File("C:/Weka-3-7/data/contact-lenses.arff")); 
Instances structure = loader.getstructure(); 


// 训练 Cobweb 

Cobweb cw = new Cobweb (); 

cw.buildclusterer (structure); 

Instance current; 

while ((current = loader.getNextInstance (structure)) != null) 


cw.updateClusterer (current); 


cw.updateFinished(); 


// 输出 生成 模型 


System.out.println (cw); 


} 


3. 聚 类 器 评估 


前 


二 | 


而 两 个 示例 完成 了 聚 类 器 的 构建 ， 但 没有 对 聚 类 器 进行 评估 。 因 为 聚 类 是 无 监督 的 


学 习 ， 因 此 难以 确定 聚 类 模型 的 性 能 。 本 示例 给 出 了 评估 聚 类 器 的 三 种 方式 ， 完 整 代码 如 
程序 清单 7.49 所 示 。 
第 一 种 方式 是 一 种 常规 的 方法 ， 直 接 使 用 -t 选项 指定 训练 文件 ， 然 后 调用 


ClusterEvaluation 


类 的 静态 方法 evaluateClusterer， 该 方法 使 用 选项 中 给 定 的 字符 串 数组 评 


估 聚 类 器 ， 本 例 中 方法 带 两 个 参数 ， 第 一 个 参数 是 要 评估 的 聚 类 器 ， 第 二 个 参数 是 字符 串 
数组 的 选项 。 常 常 使 用 -t 和 -T 选项 ， 前 者 指定 训练 文件 ， 后 者 指定 测试 文件 ， 本 例 省 略 了 
指定 测试 文件 的 选项 ， 默 认 执 行 分 层 十 折 交 叉 验 证 。 

第 二 种 方式 采用 手工 调用 。 与 第 一 种 方式 不 同 的 是 ， 这 里 实例 化 ClusterEvaluation 对 
象 ， 调 用 该 对 象 的 setClusterer 方法 和 evaluateClusterer 方法 ，setClusterer 方法 设置 所 使 用 
的 聚 类 器 对 象 ，evaluateClusterer 方法 输入 一 组 实例 作为 参数 ， 评 估 聚 类 器 性 能 。 最 后 调用 
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ClusterEvaluation 对 象 的 clusterResultsToString 方法 ， 该 方法 返回 详细 说 明 对 数据 集聚 类 结 
果 的 字符 串 。 

第 三 种 方式 采用 交叉 验证 。 直 接 调用 ClusterEvaluation 类 的 静态 方法 
crossValidateModel， 该 方法 对 基于 密度 的 聚 类 器 执行 交叉 验证 ， 方 法 带 四 个 参数 ， 第 一 个 
参数 为 要 评估 聚 类 器 ， 第 二 个 参数 是 训练 数据 ， 第 三 个 参数 要 执行 的 交 义 验证 的 折 数 ， 第 
四 个 参数 是 交叉 验证 随机 数 种 子 。 方 法 返回 一 个 double 类 型 的 数值 ， 这 是 交叉 验证 的 对 数 
似 然 。 


程序 清单 7.49 ClusteringEvaluation .java 


Package wekalearning.clusterers; 


import weka.clusterers.ClusterEvaluation; 

import weka.clusterers.DensityBasedClusterer; 

import weka.clusterers .EM; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 


/** 
* 三 种 评估 聚 类 器 的 方式 
public class ClusteringEvaluation { 


public static void main(String[] args) throws Exception { 
String filename = "C:/Weka-3-7/data/contact-lenses.arff"; 
ClusterEvaluation clusterEval; 
Instances data; 
String[] options; 
DensityBasedClusterer dbc; // 基于 密度 的 聚 类 器 
double logLikelyhood; 


// 加 载 数 据 


data = Datasource. read(filename); 


// 常规 方法 

System.out.println("\n****** 常规 方法 "); 

options = new String[2]; 

options [0] = "-t"; // 指定 训练 文件 

options [1] = filename; 
String output = ClusterEvaluation.evaluateClusterer (new EM(), options); 
System.out.println (output); 


// 手工 调用 

System. out.println("\nx****x** 手工 调用 "); 

dbc = new EM(); 

dbc.buildclusterer (data); 

clusterEval = new ClusterEvaluation(); 

clusterEval .setClusterer (dbc); 

clusterEval .evaluateClusterer (new Instances (data)); 


System. out.println(clusterEval.clusterResultsToString ()); 


// 基于 密度 的 聚 类 器 交叉 验证 

System.out.println ("\n*****# 交叉 验证 ") 7 

dbc = new EM(); 

logLikelyhood = ClusterEvaluation.crossValidateModel (dbc, data, 10, 
data.getRandomNumberGenerator (1234) ); 

System. out .println ("对 数 似 然 : " + logLikelyhood); 


} 


4. Classes-to-Clusters 


Classes-to-Clusters 评估 专用 于 比较 所 选择 的 簇 与 预先 设 定 的 类 别 的 匹配 程度 ， 在 这 种 
方式 下 ， 用 户 先 选择 一 个 属性 (通常 应 该 为 标 称 型 ) 人 代表“ 真实 的 ”类 别 。 聚 类 数据 后 ， 
Weka 检查 每 个 簇 中 占 多 数 的 类 别 是 哪个 ， 并 且 可 以 打印 混淆 矩阵 以 显示 如 果 使 用 簇 来 痊 
代 真 实 类 别 后 的 误差 有 多 大 。 

完整 的 Classes-to-Clusters 评估 代码 如 程序 清单 7.50 所 示 。 程 序 首先 加 载 数 据 集 并 设 
置 类 别 属 性 的 索引 ， 然 后 使 用 Remove 过 滤器 移 除 类 别 属 性 ， 这 样 过 滤 后 得 到 的 新 数据 集 
就 不 再 包含 类 别 ， 避 免 给 聚 类 算法 多 余 的 信息 。 这 里 需要 注意 一 个 容易 犯错 的 问题 ， 
setClassIndex 方法 的 参数 为 int 型 数值 ， 是 从 0 开始 计数 的 索引 值 ， 而 setAttributeIndices 
方法 所 带 的 参数 为 字符 串 型 ， 使 用 逗号 分 割 的 属性 索引 列表 ， 由 于 该 字符 串 多 数 时 候 都 来 
自用 户 ， 因 此 索引 值 都 是 从 1 开始 计数 的 。 

使 用 ClusterEvaluation 对 象 对 聚 类 器 进行 评估 ， 这 是 专用 于 评估 聚 类 模型 的 Java 类 。 
本 例 使 用 到 该 对 象 的 两 个 方法 一 一 setClusterer 和 evaluateClusterer， 前 者 设置 所 使 用 的 聚 类 
器 ， 后 者 针对 一 组 实例 评估 聚 类 器 性 能 ， 计 算 聚 类 统计 特性 。 最 后 在 控制 台 打 印 评估 结果 。 


程序 清单 7.50 ClassesToClusters.java 


package wekalearning.clusterers; 


import weka.clusterers.ClusterEvaluation; 

import weka.clusterers .EM; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSsource; 
import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.Remove; 


/** 

* 本 例 展示 如 何 执行 “classes-to-clusters” 评 估 

FF 

public class ClassesToClusters { 

public static void main(String[] args) throws Exception { 
// 加 载 数 据 
Instances data = DataSource 
.read("C:/Weka-3-7/data/contact—lenses .arff"); 

data.setclassIndex (data.numAttributes() — 1); 


Idv ee 山上 洲 和 


@« 


@« 


数据 挖掘 与 机 器 学 习 
一 一 WEKA 应 用 技术 与 赤 码 


// 生成 聚 类 器 数据 ， 过 滤 以 去 除 类 别 属 性 

Remove filter = new Remove () 7 
filter.setAttributeIndices("" + (data.classIndex() + 1)); 
filter.setInputFormat (data); 

Instances dataClusterer = Filter.useFilter(data, filter); 


// 训练 聚 类 器 

EM clusterer = new EM(); 

// 如 果 有 必要 ， 可 在 这 里 设置 更 多 选项 
// 构建 聚 类 器 


clusterer.buildClusterer (dataClusterer); 


// 评估 聚 类 器 

ClusterEvaluation eval = new ClusterEvaluation (); 
eval.setClusterer (clusterer) 7 

eval .evaluateClusterer (data); 


// 输出 结果 


System.out.println (eval.clusterResultsToString ()); 
} 


5. 输出 聚 类 分 布 


本 示例 使 用 专 有 测试 集 ， 在 训练 集 上 构建 EM 聚 类 器 ， 然 后 在 测试 集 上 预测 每 个 实例 
属于 哪个 徐 ， 最 后 输出 簇 的 隶属 度 。 完 整 代码 如 程序 清单 7.51 所 示 ， 程 序 首先 加 载 训练 集 
和 测试 集 ， 然 后 使 用 训练 集 构建 EM 聚 类 器 ， 后 面 一 步 是 最 为 重要 的 。 本 例 使 用 一 个 循环 
遍历 整个 测试 集 ， 对 每 一 个 实例 预测 其 所 在 的 簇 并 计算 其 分 布 ， 调 用 聚 类 器 对 象 的 
clusterInstance 方法 预测 作为 输入 参数 的 实例 属于 哪个 徐 ， 调 用 distributionForInstance 方法 
预测 给 定 实例 属于 某 个 簇 的 隶属 度 。 


程序 清单 7.51 OutputClusterDistribution.java 


Package wekalearning.clusterers; 


import weka.clusterers .EM; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSsource; 


» 二 二 
* 本 例 展示 在 训练 集 上 构建 EM 聚 类 器 ， 然 后 在 测试 集 上 预测 簇 并 输出 簇 的 隶属 度 
TS 

public class OutputClusterDistribution { 


public static void main(String[] args) throws Exception { 
// 加 载 数据 
Instances train = DataSource 
.read("C:/Weka-3-7/data/segment—challenge.arff"); 
Instances test = DataSource.read("C:/Weka-3-7/data/segment -test.arff"); 


if (!train.equalHeaders (test) ) 
throw new Exception (" 训 练 集 和 测试 集 不 兼容 : " 
+ train.equalHeadersMsg (test) ) 7 


// 构建 聚 类 器 
EM clusterer = new EM(); 
clusterer .buildClusterer (train); 


// 输出 预测 

System. out.println ("编号 - 徐 \t-\t 分 布 ") ; 

for (int i = 0; i < test.numInstances(); i++) { 
int cluster = clusterer.clusterInstance (test.instance (i)); 
double[] dist = clusterer.distributionForInstance (test.instance (i)); 
System.out.print ((i + 1)); 
System.out.print (™ 一 "); 
System.out.print (cluster); 
System.out.print (™ — "); 
System.out.print (Utils.arrayToSstring (dist)); 
System.out.println(); 


7.8 属性 选择 


为 获得 最 佳 效 果 ， 正 确 准 备 数据 是 非常 重要 的 一 步 。 减 少 属性 的 数量 可 以 加 快 算法 的 
运行 ， 有 些 算法 的 运行 时 间 与 属性 数量 的 二 次 方 成 正比 。 为 了 建立 一 个 良好 的 模型 ， 当 只 有 
少数 属性 是 不 可 或 缺 的 时 候 ， 减 少 属性 数量 也 有 利于 避免 算法 “淹没 ”在 大 量 的 属性 中 。 

当前 Weka 有 三 种 不 同类 型 的 评估 器 。 

(1) 单 属 性 的 评估 器 。 对 单个 属性 进行 评估 。 这 些 类 实现 
weka.attributeSelection.AttributeEvaluator 接口 。Ranker 搜索 算法 通常 用 于 和 这 些 算法 联合 
使 用 。 

(2) 属性 子 集 的 评估 器 。 对 数据 集 全 部 属性 的 子 集 进行 评估 ， 这 些 评估 器 需要 实现 
weka.attributeSelection.SubsetEvaluator 接口 。 

(3) 属性 集 评 估 器 。 评 估 属 性 的 集合 。 不 要 与 subset evaluators( 子 集 评估 器 ) 相 混淆 ， 
因为 这 些 类 都 派生 自 weka.attributeSelection.AttributeSetEvaluator 超 类 。 

大 部 分 的 属性 选择 方案 目前 都 实现 为 有 监督 的 ， 也 就 是 说 ， 这 些 方 案 需要 带 类 别 属性 
的 数据 集 。 无 监督 的 评估 算法 需要 从 以 下 超 类 之 一 派生 。 


(1) weka.attributeSelection.UnsupervisedAttributeEvaluator， 例 如 ，LatentSemanticAnalysis, 


PrincipalComponents 。 
(2) weka.attributeSelection.UnsupervisedSubsetEvaluator， 当 前 不 支持 。 
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(3) weka.attributeSelection.FilteredAttributeEval 

评估 单个 属性 的 评估 器 之 过 滤器 。 

(4) weka.attributeSelection.FilteredSubsetEval 

过 滤 评 估 属 性 子 集 的 评估 器 。 

以 上 是 不 同 的 属性 选择 算法 的 差异 ， 现 在 回 到 如 何 进 行 实 际 的 属性 选择 ，Weka 为 此 
提供 了 以 下 三 种 不 同 的 方法 。 

(1) 使 用 元 分 类 器 

使 用 快速 属性 选择 ， 类 似 FilteredClassifier 的 快速 过 滤 。 

(2) 使 用 过 滤器 

用 于 数据 预 处 理 。 

(3) 使 用 低级 API 

不 使 用 元 方案 (分 类 器 或 过 滤器 )， 而 是 直接 使 用 属性 选择 API。 

以 下 章节 介绍 每 个 主题 ， 都 附 有 代码 示例 。 为 了 清楚 和 便于 比较 ， 在 所 有 这 些 示例 中 
都 使 用 同样 的 评估 器 和 搜索 算法 。 


7.8.1 使 用 元 分 类 器 


元 分 类 器 AttributeSelectedClassifier( 该 分 类 器 位 于 包 weka.classifiers.meta 中 ) 与 分 类 器 
FilteredClassifier 类 似 ， 但 不 采用 将 基 分 类 器 和 过 滤器 作为 参数 来 执行 过 滤 的 方法 ， 而 是 使 
用 一 个 由 weka.attributeSelection.ASEvaluation 派生 的 搜索 算法 ， 以 及 一 个 由 
weka.attributeSelection.ASSearch 派生 的 评估 器 来 执行 属性 选择 ， 并 由 基 分 类 器 对 精简 后 的 
数据 进行 训练 。 

如 程序 清单 7.52 所 示 的 示例 使 用 J48 作为 基 分 类 器 ，CfsSubsetEval 作为 评估 器 ， 以 及 
反 向 操作 GreedyStepwise 作为 搜索 方法 。 


程序 清单 7.52 元 分 类 器 代码 片段 


Instances data = ... // 数据 集 

// 设置 元 分 类 器 

RAttributeSelectedClassifier classifier = new AttributeselectedClassifier (); 
CfssubsetEval eval = new CfsSubsetEval (); 

GreedyStepwise search = new GreedyStepwise(); 

Search.setSearchBackwards (true); 

J48 base = new J48(); 

classifier.setClassifier (base); 

classifier.setEvaluator (eval); 


classifier.setSearch (search); 

// 交叉 验证 分 类 器 

Evaluation evaluation = new Evaluation (data); 
evaluation.crossValidateModel (classifier, data, 10, new Random(1)); 
System.out .println (evaluation.toSsummarystring()); 


7.8.2 ”使 用 过 滤器 
当 数 据 只 需要 减少 维 数 但 不 用 于 训练 分 类 器 的 情况 下 ， 过 滤器 方法 是 正确 的 选择 。 


© 


weka.filters.supervised.attribute 包 的 AttributeSelection 过 滤器 需要 一 个 评估 器 和 搜索 算法 作 

如 程序 清单 7.53 所 示 的 示例 再 次 使 用 CfsSubsetEval 作为 评估 器 ， 并 使 用 反 向 操作 
GreedyStepwise 作为 搜索 算法 ， 在 过 滤 步骤 之 后 ， 仅 将 减少 后 的 数据 输出 到 标准 输出 。 代 
码 片段 如 下 : 


程序 清单 7.53 使 用 过 滤器 代码 片段 


Instances data = ... // 数据 集 

// 设置 过 滤器 

Attributeselection filter = new Attributeselection(); 
CfsSubsetEval eval = new CfsSubsetEval (); 
GreedyStepwise search = new GreedyStepwise(); 
Search.setSearchBackwards (true); 
filter.setEvaluator (eval); 

filter.setSearch (search); 

filter.setInputFormat (data); 

// 过 滤 数 据 

Instances newData = Filter.useFilter(data, filter); 
System.out .Println (newData); 


7.8.3 使 用 底层 API 


使 用 元 分 类 器 或 过 滤器 的 方法 来 选择 属性 相当 容易 ， 但 也 不 一 定 能 够 满足 每 个 人 的 需 
求 。 例 如 ， 如 果 用 户 需 要 使 用 Ranker 以 获得 属性 的 顺序 ， 或 者 需要 检索 已 选 定 属性 的 索 
引 ， 而 非 减少 了 数据 。 

与 其 他 示例 类 似 ， 程 序 清 单 7.54 的 示例 使 用 CfsSubsetEval 评估 器 和 “GreedyStepwise 
的 搜索 算法 (向 后 模式 )。 但 是 ， 不 是 输出 减少 后 的 数据 ， 而 是 在 控制 台 打 印 选 定 的 索引 。 
代码 片段 如 下 。 


程序 清单 7.$4 直接 使 用 API 代码 示例 


Instances data = ... // 数据 集 
// 属性 选择 设置 
RAttributeSelection attsel = new AttributeSelection(); 
CfsSubsetEval eval = new CfsSubsetEval () 7 
GreedyStepwise search = new GreedyStepwise(); 
Search.setSearchBackwards (true) 
attsel .setEvaluator (eval); 
attsel .setSearch (search); 
// 执行 属性 选择 
attsel .SelectAttributes (data); 
int[] indices = attsel.selectedAttributes(); 
System.out.println( 
"selected attribute indices (starting with 0):\n" 
+ Utils.arrayTostring (indices)); 
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7.8.4 手把手 教 你 
1. 使 用 元 分 类 器 
本 示例 使 用 元 分 类 器 进行 属性 选择 ， 完 整 代码 如 程序 清单 7.55 所 示 。 程 序 首 先 加 载 数 


据 文件 并 设置 类 别 属性 ， 然 后 实例 化 AttributeSelectedClassifier 对 象 ， 该 对 象 的 功 


能 是 ， 在 


传递 给 分 类 器 之 前 ， 用 属性 选择 来 降低 训练 数据 和 测试 数据 的 维度 。 随 后 ， 调 用 
AttributeSelectedClassifier 对 象 的 setClassifier 方法 设置 基 学 习 器 ， 这 里 是 一 个 J48 分 类 器 对 
象 ; 调用 setEvaluator 方法 设置 属性 评估 器 ， 所 带 参数 为 ASEvaluation 类 的 派生 对 象 ， 这 


里 使 用 CfsSubsetEval 对 象 ， 调 用 setSearch 方法 设置 搜索 算法 ， 所 带 参 数 为 ASSearch 类 的 
派生 对 象 ， 这 里 使 用 GreedyStepwise 对 象 。 最 后 ， 调 用 Evaluation 对 象 的 


crossValidateModel 方法 用 分 类 器 对 一 组 数据 执行 交叉 验证 ， 其 中 ， 第 一 个 参数 为 分 类 器 对 
象 ， 第 二 个 参数 为 要 进行 交叉 验证 的 数据 ， 第 三 个 参数 为 交叉 验证 的 折 数 ， 第 四 个 参数 为 
随机 数 产 生 器 对 象 。 

程序 清单 7.55 UseMetaClassifierjava 


Package wekalearning.attributeSelection; 


import 


import 
import 
import 
import 
import 
import 
import 


太太 


java.util.Random; 


weka.attributeselection.CfssubsetEval; 
weka.attributesSelection.GreedyStepwise; 
weka.classifiers.Evaluation; 
weka.classifiers.meta.Attributeselectedclassifier; 
weka.classifiers.trees.J48; 

weka.core.Instances; 
Weka.core.converters.ConverterUtils.Datasource; 


* 使 用 元 分 类 器 


5 
public 


class UseMetaClassifier { 


public static void main(String[] args) throws Exception 


// 加 载 数 据 
DataSource source = new DataSource ("C:/Weka-3-7/ 
data/weather .numeric.arff"); 
Instances data = source.getDataset (); 
// 设置 类 别 属性 索引 
if (data.classIndex() =— -1) 
data.setClassIndex (data.numAttributes() - 1); 


System. out.println("\n 使 用 元 分 类 器 ") ; 
AttributeSelectedClassifier classifier = new 
Attributeselectedclassifier(); 

CfssubsetEval eval = new CfsSubsetEval (); 
GreedyStepwise search = new GreedyStepwise(); 


} 


Search. setSearchBackwards (true); 

J48 base = new J48 () 7 

classifier.setClassifier (base); 

classifier.setEvaluator (eval); 

classifier.setSearch (search); 

Evaluation evaluation = new Evaluation (data); 
evaluation.crossValidateModel (classifier, data, 10, new Random(1234)); 
System. out.println (evaluation.toSummaryString())7 


2. 使 用 过 滤器 


本 示例 使 用 过 滤器 进行 属性 选择 ， 完 整 代码 如 程序 清单 7.56 所 示 。 程 序 首先 加 载 数据 
文件 并 设置 类 别 属 性 ， 然 后 实例 化 weka.filters.supervised.attribute 包 的 AttributeSelection 过 
滤器 对 象 ， 该 对 象 是 用 来 选择 属性 的 有 监督 属性 过 滤器 ， 人 允许 结合 各 种 搜索 方法 和 评价 方 


法 ， 使 月 


非常 灵活 。 随 后 调用 该 对 象 的 setEvaluator 方法 设置 属性 (或 子 集 ) 的 评估 器 ， 调 用 


setSearch 方法 设置 搜索 类 (ASSearch 类 的 派生 对 象 )， 调 用 setInputFormat 方法 设置 输入 数 


据 集 的 格式 ， 最 后 调用 Filter 类 的 静态 方法 useFilter 使 用 过 滤器 过 滤 整 个 实例 集 ， 并 返回 


新 的 数据 集 。 
程序 清单 7.56 UseFilterjava 


package wekalearning.attributeSelection; 


import weka.attributeSelection.CfsSubsetEval:; 

import weka.attributeSelection.GreedyStepwise; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSsource; 
import weka.filters.Filter; 

import weka.filters.supervised.attribute.AttributeSelection 


/太太 


* 使 用 过 滤器 


np 


public class UseFilter { 


public static void main (String[] args) throws Exception { 
// 加 载 数 据 
DataSource source = new DataSource ("C:/Weka-3-7/ 
data/weather.numeric.arff"); 
Instances data = source.getDataSet (); 
// 设置 类 别 属性 索引 
if (data.classIndex() =— -1) 
data.setClassIndex (data.numAttributes() - 1); 


System.out.println ("\n 使 用 过 滤器 ") ; 
Attributeselection filter = new Attributeselection(); 
CfsSubsetEval eval = new CfsSubsetEval (); 
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GreedyStepwise search = new GreedyStepwise(); 
Search.setSearchBackwards (true); 
filter.setEvaluator (eval); 

filter.setSearch (search); 

filter.setInputFormat (data); 

Instances newData = Filter.useFilter(data, filter); 
System.out.println (newData); 


} 


3. 使 用 底层 API 


本 示例 使 用 底层 API 进行 属性 选择 ， 完 整 代码 如 程序 清单 7.57 所 示 。 程 序 首先 加 载 数 
据 文件 并 设置 类 别 属性 ， 然 后 实例 化 weka.attributeSelection.AttributeSelection 包 的 
AttributeSelection 对 象 ， 该 对 象 是 属性 选择 Java 类 ， 可 以 用 命令 行 来 获取 搜索 类 以 及 评估 
类 的 名 称 。 随 后 ， 调 用 AttributeSelection 对 象 的 setEvaluator 方法 设置 属性 ( 子 集 ) 的 评估 
器 ， 调 用 setSearch 方法 设置 搜索 方法 ， 调 用 带 一 个 参数 (Instances 对 象 ) 的 SelectAttributes 
方法 ， 对 所 提供 的 训练 实例 执行 属性 选择 。 最 后 ， 调 用 不 带 任 何 参数 的 selectedAttributes 
方法 获取 最 终 选 定 的 属性 集合 ， 并 打印 到 控制 台 。 


程序 清单 7.57 UseLowLeveljava 


Ppackage wekalearning.attributeSelection; 


import weka.attributeSelection.AttributeSelection7 
import weka.attributeSelection.CfsSubsetEval; 

import weka.attributeSelection.GreedyStepwise; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSource; 


. 太太 
* 使 用 底层 API 
public class UseLowLevel { 


public static void main (String[] args) throws Exception { 
// 加 载 数据 
DataSource source = new DataSource ("C:/Weka-3-7/ 
data/weather.numeric.arff"); 
Instances data = source.getDataset (); 
// 设置 类 别 属性 索引 
if (data.classIndex() 一 -1) 
data.setClassIndex (data.numAttributes() - 1); 


System.out.println("\n 使 用 底层 API") > 
AttributeSelection attsel = new Attributeselection(); 
CfsSubsetEval eval = new CfsSubsetEval (); 
GreedyStepwise search = new GreedyStepwise(); 


Search.setSearchBackwards (true) 7 

attsel .setEvaluator (eval) 7 

attsel1.setSearch (Search) 7 

attsel .SelectAttributes (data); 

int[] indices = attsel.selectedAttributes(); 
System.out.println ("选择 属性 索引 (从 0 开始 ) : \n" + 
Utils.arrayTostring(indices)); 


7.9 可 视 化 


由 于 可 视 化 以 非常 直观 的 方式 展现 结果 ， 便 于 发 现 隐藏 领域 的 知识 ， 以 便 快 速 排除 许 
多 无 意义 的 模式 ， 直 接 关 注 到 重要 的 模式 上 ， 因 而 是 发 现 模式 的 最 佳 方式 。 


7.9.1 ROC 曲线 


Weka 能 够 根据 对 分 类 器 的 评估 过 程 中 收集 到 的 预测 ， 生 成 “接收 者 操作 特性 ”(ROC) 
曲线 。 为 了 显示 一 个 ROC 曲线 ， 需 要 执行 以 下 操作 步骤 。 

第 一 步 ， 使 用 weka.classifiers.evaluation 包 的 ThresholdCurve 类 ， 根 据 Evaluation 收集 
到 的 预测 ， 生 成 可 绘制 的 数据 。 

第 二 步 ， 将 可 绘制 的 数据 放 入 一 个 绘图 容器 ， 容 器 为 weka.guivisualize 包 的 
PlotData2D 类 的 实例 。 

第 三 步 ， 将 绘图 容器 添加 至 可 视 化 面板 以 显示 数据 ， 可 视 化 面板 应 该 为 
weka.gui.visualize 包 的 ThresholdVisualizePanel 类 的 实例 。 

第 四 步 ， 将 可 视 化 面板 添加 到 javax.swing 包 的 下 rame 并 显示 。 

现 将 上 述 四 个 步骤 转换 为 实际 代码 。 

第 一 步 ， 生 成 可 绘制 的 数据 。 代 码 片段 如 下 : 


Evaluation eval = ... // 来 自 某 处 
ThresholdCurve tc = new ThresholdCurve(); 
int classIndex = 0; // 第 一 个 类 别 标签 的 ROC 


Instances curve = tc.getCurve (eval.predictions () classIndex); 
第 二 步 ， 将 可 绘制 数据 放 入 绘图 容器 。 代 码 片段 如 下 : 


PlotData2D plotdata = new PlotData2D (curve); 
plotdata. setPlotName (curve.relationName ()) 7 
plotdata.addInstanceNumberAttribute(); 


第 三 步 ， 将 绘图 容器 添加 至 可 视 化 面板 。 代 码 片 段 如 下 : 


ThresholdVisualizePanel tvp = new ThresholdVisualizePanel (); 
tvp.setROCString("(Area under ROC = "+ 
Utils.doubleToSstring (ThresholdCurve.getROCArea (curve) ,4) +")"); 
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tvp .setName (curve.relationName ()); 
tvp.addPlot (plotdata); 


第 四 步 ， 将 可 视 化 面板 添加 到 下 rame。 代 码 片 段 如 下 : 


final JErame jf = new JFrame ("WEKA ROC: " + tvp.getName()); 
jf.setsize(500, 400); 

读 .getContentPane() .setLayout (new BorderLayout () ) 7 

后 .getContentPane () .add (tvp, BorderLayout .CENTER); 
jf.setDefaultCloseOperation (JFrame .DISPOSE ON CLOSE); 
jf.setVisible (true); 


7.9.2 图 


实现 weka.core.Drawable 接口 的 类 可 以 生成 其 内 部 模式 能 够 显示 的 图 形 。 目 前 ， 有 两 
种 不 同类 型 的 图 一 一 Tree 和 BayesNet， 前 者 为 决策 树 ， 后 者 贝 叶 斯 网 络 图 结构 。 

显示 weka.classifiers.trees 包 的 J48 和 M5P 分 类 器 的 内 部 树 结构 很 容易 。 程 序 清单 7.58 
用 数据 集 构建 了 一 个 J48 分 类 器 ， 并 使 用 weka.gui.treevisualizer 包 的 TreeVisualizer 类 直观 显 
示 所 生成 的 树 。 可 视 化 类 TreeVisualizer 可 以 用 GraphViz 的 DOT 语言 来 查看 树 (或 有 向 图 )。 


程序 清单 7.58 可视化 树 结构 代码 片段 


Instances data = ... // 数据 集 
// 训练 分 类 器 
J48 cls = new J48(); 
cls.buildclassifier (data); 
// 显示 树 
TreeVisualizer tv = new TreeVisualizer( 

null, cls.graph(), new PlaceNode2 ()) 7 
JFrame jf = new JFrame ("Weka Classifier Tree Visualizer: J48") 
jf.setDefaultCloseOperation (JFrame.DISPOSE ON CLOSE) ; 
jf.setsize(800, 600); 
]j 工 .getContentPane () .setLayout (new BorderLayout ()); 
jf.getCcontentPane() .add (tv, BorderLayout .CENTER); 
jf.setVisible (true); 
// 调整 树 


tv.fitToScreen(); 

weka.classifiers.bayes 包 的 BayesNet( 贝 叶 斯 网 络 ) 分 类 器 所 生成 的 图 可 以 使 用 
GraphVisualizer 类 (位 于 包 weka.gui.graphvisualizer 中 ) 进 行 显示 。GraphVisualizer 可 以 显示 
用 GraphViz 的 DOT 语言 或 XML BIF 格式 表示 的 图 形 。 需 要 使 用 readDOT 方法 显示 DOT 
格式 的 图 形 ， 而 使 用 readBIF 方法 显示 BIF 格式 的 图 形 。 

下 面 的 示例 用 一 些 数据 来 训练 一 个 贝 叶 斯 网 络 分 类 器 ， 然 后 显示 从 这 些 数据 中 产生 的 
图 形 帧 。 代 码 片 段 如 下 : 


程序 清单 7.59 ”可视化 贝 叶 斯 网 络 代码 片段 


Instances data = ... // 数据 集 
// 训练 分 类 器 


BayesNet cls = new BayesNet (); 


cls.buildclassifier (data); 

// 显示 图 

GraphVisualizer gv = new GraphVisualizer(); 
gv.readBIF (cls.graph ()); 

JFrame jf = new JFrame ("BayesNet graph"); 
jf.setDefaultCloseOperation (JFrame .DISPOSE ON CLOSE); 
jf.setsize(800, 600); 

jf.getContentPane() .setLayout (new BorderLayout () ) 7 
jf.getContentPane() .add (gv, BorderLayout .CENTER); 
jf.setVisible (true); 

// 布局 图 

gv.layoutGraph (); 


Idv ee 翰 L 小 老 


7.9.3 手把手 教 你 用 

1. 可 视 化 ROC 曲线 

本 示例 展示 如 何 由 数据 集 产 生 并 显示 ROC 曲线 。 完 整 代码 见 程 序 清单 7.60， 首 先 加 
载 数据 集 文 件 ， 然 后 构建 Evaluation 对 象 ，Evaluation 类 专门 为 评估 机 器 学 习 模 型 而 设置 。 
再 调用 Evaluation 对 象 的 crossValidateModel 方法 ， 该 方法 用 分 类 器 对 一 组 数据 执行 交叉 验 
证 ， 其 中 ， 第 一 个 参数 为 分 类 器 对 象 ， 第 二 个 参数 为 要 进行 交叉 验证 的 数据 ， 第 三 个 参数 
为 交叉 验证 的 折 数 ， 第 四 个 参数 为 随机 数 产 生 器 对 象 。 最 后 ， 按 照 前 文 所 述 的 显示 ROC 
曲线 的 四 个 步骤 ， 显 示 ROC 曲线 。 

程序 清单 7.60 VisualizeROC java 


Package wekalearning.visualize; 


import weka.classifiers.Classifier; 

import weka.classifiers.Evaluation; 

import weka.classifiers.bayes.NaiveBayes; 

import weka.classifiers.evaluation.ThresholdCurve; 
import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSsource; 
import weka.gui.visualize.PlotData2D; 

import weka.gui.visualize.ThresholdVisualizePanel; 


import java.awt .BorderLayout; 
import java.util.Random; 


import javax.swing.JFrame; 


. 立夫 
* 由 数据 集 产生 并 显示 ROC 曲线 ， 使 用 NaiveBayes 的 默认 设置 来 产生 ROC 数据 
ny 


public class VisualizeROC { 


public static void main(String[] args) throws Exception { 
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// 加 载 数据 
Instances data = DataSource 
.read("C:/Weka-3-7/data/weather.nominal .arff"); 
data.setClassIndex (data.numAttributes() - 1); 


// 评估 分 类 器 

Classifier classifier = new NaiveBayes(); 

Evaluation eval = new Evaluation (data); 

eval.crossValidateModel (classifier, data, 10, new Random(1234)); 


// 第 一 步 ， 生 成 可 绘制 的 数据 

ThresholdCurve tc = new ThresholdCurve(); 

int classIndex = 0; 

Instances curve = tc.getCurve (eval .predictions(), classIndex); 


// 第 二 步 ， 将 可 绘制 数据 放 入 绘图 容器 

PlotData2D plotdata = new PlotData2D (curve); 
plotdata. setPlotName (curve.relationName ()); 
plotdata.addInstanceNumberAttribute(); 


// 第 三 步 ， 将 绘图 容器 添加 至 可 视 化 面板 

ThresholdVisualizePanel tvp = new ThresholdVisualizePanel (); 

tvp.setRoCstring(" (Area under ROC =" 
+ Utils.doubleToString (ThresholdCurve .getROCArea (curve), 4) 
et it 

tvp.setName (curve.relationName ()); 

// 指定 连接 哪些 点 

boolean[] cp = new boolean[curve.numInstances()]; 

for (int i = 1; i < cp.length; i++) 

cp[i] = true; 

plotdata.setConnectPoints (cp); 

// 添加 绘图 

tvp.addPlot (plotdata); 


// 第 四 步 ， 将 可 视 化 面板 添加 到 JFrame 

final JFrame jf = new JFrame ("WEKA ROC: " + tvp.getName()); 
// 设置 窗 体 的 大 小 为 500*400 像素 

jf.setsize(500, 400); 

// 设置 布局 管理 器 

jf.getContentPane() .setLayout (new BorderLayout ()); 
jf.getContentPane() .add (tvp, BorderLayout .CENTER); 

// 自动 隐藏 并 释放 该 窗 体 

jf.setDefaultCloseOperation (JErame .DISPOSE ON CLOSE); 
// 设置 窗 体 可 见 

jf.setVisible (true) 7 


} 


,二 不 


了 结果 如 图 7.7 所 示 。 


图 7.7 运行 结果 
2. 可 视 化 树 结构 


本 示例 展示 如 何 可 视 化 决策 树 ， 完 整 代码 如 程序 清单 7.61 所 示 。 首 先 加 载 数据 集 并 构 
建 一 个 J48 分 类 器 ， 然 后 使 用 TreeVisualizer 类 显示 决策 树 。 程 序 首 先 实例 化 
TreeVisualizer 对 象 ， 该 对 象 用 于 在 Swing 中 显示 节点 结构 。 其 构造 函数 带 三 个 参数 ， 第 一 
个 参数 为 TreeDisplayListener 对 象 ， 这 是 一 个 监听 器 对 象 ， 设 置 为 null 表示 不 使 用 监听 
器 ; 第 二 个 参数 为 字符 串 类 型 ， 其 中 包含 要 显示 决策 树 的 节点 表示 ， 这 里 直接 调用 决策 树 
的 graph 方法 ， 返 回 决策 树 的 图 形 描述 字符 串 ， 第 三 个 参数 为 实现 NodePlace 接口 的 对 
象 ， 该 对 象 是 用 于 定位 节点 的 算法 ， 这 里 使 用 放置 树 节点 的 PlaceNode2 对 象 。 创 建 好 
TreeVisualizer 对 象 之 后 ， 下 一 步 就 是 将 它 分 配给 一 个 窗口 或 类 似 的 其 他 对 象 ， 这 里 调用 
JFrame 对 象 的 getContentPane 方法 返回 窗 体 的 内 容 面板 对 象 ， 然 后 调用 该 面板 对 象 的 add 
方法 添加 TreeVisualizer 对 象 ， 从 而 将 显示 组 件 与 窗 体 挂钩 。 最 后 一 步 是 将 决策 树 调整 到 
当前 所 需 的 大 小 ， 这 里 直接 调用 TreeVisualizer 对 象 ftToScreen 方法 来 实现 。 


程序 清单 7.61 VisualizeTreejava 


Package wekalearning.visualize; 


import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSsource; 
import weka.gui.treevisualizer.PlaceNode2; 

import weka.gui.treevisualizer.TreeVisualizer; 


import java.awt .BorderLayout; 
import javax.swing.JFrame; 


/ 二 二 
* 训练 J48 并 可 视 化 决策 树 
public class VisualizeTree { 


public static void main(String args[]) throws Exception { 
// 构建 J48 分 类 器 
J48 cls = new J48 () 
Instances data = DataSource 
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.read("C:/Weka-3-7/data/weather.nominal .arff"); 
data.setClassIndex (data.numAttributes() - 1); 
cls.buildclassifier (data); 


// 显示 树 

TreeVisualizer tv = new TreeVisualizer(null, cls.graph(), 
new PlaceNode2()); 

JFrame jf = new JFrame ("J48 分 类 器 树 可 视 化 器 ") ; 

jf.setDefaultCloseOperation (JFrame.DISFOSE ON CLOSE); 

jf.setsize (600, 400); 

jf.getContentPane() .SetLayout (new BorderLayout ()); 

jf.getContentPane() .add (tv, BorderLayout .CENTER); 

jf.setVisible (true); 


// 调整 树 


tv.fitToscreen (); 


} 
运行 程序 后 ， 直 接 显示 如 图 7.8 所 示 的 决策 树 窗 体 。 


图 7.8 可视化 树 运行 结果 
3. 可 视 化 贝 叶 斯 网 络 


本 示例 展示 如 何 可 视 化 贝 叶 斯 网 络 ， 完 整 代码 如 程序 清单 7.62 所 示 。 程 序 首先 构建 一 
个 BayesNet 分 类 器 ， 然 后 使 用 GraphVisualizer 类 显示 贝 叶 斯 网 络 图 形 ， 该 类 显示 想 要 可 
视 化 的 图 形 。 显 示 贝 叶 斯 网 络 大 致 可 分 为 如 下 四 步 。 

第 一 步 实例 化 GraphVisualizer 对 象 ， 第 二 步调 用 GraphVisualizer 对 象 readBIF 方法 读 
取 图 形 的 字符 串 描述 ， 这 里 的 格式 为 XMLBIF03 ， 如 果 是 DOT 格式 ， 则 需要 调用 
readDOT 方法 ;第 三 步 将 GraphVisualizer 对 象 分 配给 一 个 窗口 或 类 似 的 其 他 对 象 ， 方 法 类 
似 于 前 一 个 示例 ; 第 四 步 布局 图 形 ， 这 里 直接 调用 GraphVisualizer 对 象 layoutGraph 方法 
实现 布局 。 


程序 清单 7.62 VisualizeBayesNet.java 


Package wekalearning.visualize; 


import weka.classifiers.bayes.BayesNet; 
import weka.core.Instances; 
import weka.core.converters.ConverterUtils.DataSource; 


import weka.gui.graphvisualizer.GraphVisualizer; 
import java.awt .BorderLayout; 
import javax.swing.JFrame; 


/ 太夫 
* 显示 训练 好 的 贝 叶 斯 网 络 图 形 
Ppublic class VisualizeBayesNet { 


Ppublic static void main (String args[]) throws Exception { 
// 贝 叶 斯 网 络 分 类 器 
BayesNet cls = new BayesNet () 7 


// 数据 集 

Instances data = DataSource.read("C:/Weka-3-7/data/weather.nominal .arff"); 
// 设置 类 别 属性 

data.setClassIndex (data.numAttributes() - 1); 

// 构建 分 类 器 


cls.buildclassifier (data); 


// 显示 图 形 

// 图 可 视 化 器 

GraphVisualizer gv = new GraphVisualizer (); 

gv.readBIF (cls.graph ()); 

// 定义 一 个 窗 体 对 象 jframe， 窗 体 名 称 为 " 贝 叶 斯 网 络 图 形 " 

JFrame jframe = new JFrame (" 贝 叶 斯 网 络 图 形 ") ; 
jframe.setDefaultCcloseOperation (JUFrame.DISPOSE ON CLOSE) 
// 设置 窗 体 的 大 小 为 500*300 像素 

jframe.setSize(500, 300); 

jframe .getContentPane () .setLayout (new BorderLayout ()); 
jframe .getContentPane () .add (gv, BorderLayout .CENTER); 
// 设置 窗 体 可 见 

jframe.setVisible (true); 


// 布局 图 形 
gv.layoutGraph (); 


} 


运行 程序 ， 显 示 如 图 7.9 所 示 的 贝 叶 斯 网 络 窗 体 。 


-9 ”可 视 化 贝 叶 斯 网 络 运行 结果 
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7.10 序 列 化 


序列 化 是 将 一 个 对 象 保存 为 一 种 持久 形式 (如 在 硬盘 上 的 一 个 字 节 流 ) 的 过 程 。 反 序列 
化 是 相反 的 过 程 ， 是 从 持久 化 的 数据 结构 中 创建 一 个 对 象 。 在 Java 中 ， 一 个 对 象 如 果实 现 
了 java.io.Serializable 接口 则 可 以 序列 化 。 如 果 序 列 化 对 象 的 某 个 成 员 用 不 着 序列 化 ， 则 需 
要 用 transient 关键 字 进 行 声明 。 

以 下 是 一 些 对 J48 分 类 器 序列 化 和 反 序 列 化 的 Java 代码 片段 。 当 然 ， 序 列 化 并 不 限于 
分 类 器 ， 大 多 数 Weka 的 学 习 方案 ， 如 聚 类 器 和 过 滤器 都 是 可 序列 化 的 。 


7.10.1 序列 化 基本 方法 


借助 于 weka.core.SerializationHelper 类 ， 很 容易 地 将 对 象 序 列 化 。 用 户 可 以 使 用 某 个 
write 方法 来 进行 保存 操作 。 代 码 片段 见 程序 清单 7.63 。 


程序 清单 7.63 ”序列 化 模型 代码 片段 
// 加载 数据 


Instances inst = DataSource.read("/dir/data.arff"); 
inst.setClassIndex (inst.numAttributes() - 1); 

// 训练 J48 

Classifier cls = new J48(); 
cls.buildclassifier (inst); 

// 序列 化 模型 


SerializationHelper.write("/dir/j48.model", cls); 
可 以 通过 使 用 某 个 read 方法 来 实现 反 序 列 化 对 象 。 代 码 片 段 如 下 : 


程序 清单 7.64 反 序 列 化 模型 代码 片段 
// 反 序 列 化 模型 


Classifier cls = (Classifier) SerializationHelper.read( 
"/dir/j48.model"); 


探索 者 界面 不 仅 将 所 构建 的 分 类 器 保存 在 模型 文件 中 ， 还 保存 构建 分 类 器 所 使 用 的 数 
据 集 的 头 信息 。 通 过 存储 数据 集 信息 ， 用 户 可 以 很 容易 地 检查 是 否 可 以 将 序列 化 的 分 类 器 
应 用 到 当前 数据 集中 。ReadAll 方法 返回 一 个 数组 ， 所 有 的 对 象 都 包含 在 模型 文件 中 。 


程序 清单 7.65 ”检查 数据 是 否 兼容 代码 片段 


// 用 于 分 类 器 的 当前 数据 
Instances current = ... // 数据 集 
// 反 序 列 化 模型 
Object o[] = SerializationHelper.readAll ("/dir/j48.model"); 
Classifier cls = (Classifier) o[0]; 
Instances data = (Instances) ol[l1]; 
// 数据 兼容 
if (!data.equalHeaders (Current) ) 
throw new Exception (" 数 据 不 兼容 ! ") ; 


如 果 除 分 类 器 外 还 要 序列 化 数据 集 的 头 信 息 ， 就 像 探索 者 界面 所 做 的 那样 ， 可 以 使 用 
某 个 writeAl 方法。 代码 片段 见 程序 清单 7.66。 


程序 清单 7.66 序列 化 数据 集 及 头 信 息 代码 片段 
// 加 载 数据 


Instances inst = DataSource.read("/dir/data.arff"); 
inst.setClassIndex (inst.numAttributes() - 1); 
// 训练 J48 
Classifier cls = new J48(); 
cls.buildclassifier (inst); 
// 序列 化 分 类 器 及 头 信息 
Instances header = new Instances (inst，0) 7 
SerializationHelper.writeAll( 
"/dir/j48.model", new Object[]{cls, header}); 


7.10.2 手把手 教 你 
1. 模型 序列 化 


本 示例 展示 如 何 对 模型 进行 序列 化 和 反 序 列 化 。 首 先 加 载 训练 数据 ， 然 后 使 用 训练 数 
据 来 训练 J48 分 类 器 ， 然 后 将 训练 好 的 分 类 器 模型 序列 化 到 磁盘 文件 。 下 一 步 是 将 磁盘 文 
件 反 序列 化 为 分 类 器 对 象 ， 最 后 打印 得 到 的 模型 。 完 整 代码 见 程序 清单 7.67， 代 码 用 到 的 
核心 Java 类 为 SerializationHelper， 该 辅助 类 检查 类 是 否 已 经 包含 或 者 需要 一 个 
serialVersionUID， 也 可 以 用 于 序列 化 和 反 序 列 化 对 象 到 文件 或 者 流 。 本 例 调用 write 方法 
进行 序列 化 ， 调 用 read 方法 进行 反 序列 化 。 


程序 清单 7.67 ModelSerialization.java 


Ppackage wekalearning.serialization; 


import weka.classifiers.Classifier; 

import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.SerializationHelper; 

import weka.core.converters.ConverterUtils.DataSsource; 


/* 
* 模型 序列 化 和 反 序列 化 示例 

二 

public class ModelSerialization { 


Public static void main(String[] args) throws Exception { 
// 加 载 数 据 
Instances inst = DataSource 
.read("C:/Weka-3-7/data/weather .numeric.arff"); 
inst .setClassIndex (inst.numAttributes() - 1); 
// 训练 J48 


Classifier cls = new J48(); 
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cls.buildclassifier (inst); 

// 序列 化 模型 
SerializationHelper.write("C:/Weka-3-7/data/j48.model", cls); 
System. out.println ("序列 化 模型 成 功 ! \n"); 


// 反 序列 化 模型 

Classifier cls2 = (Classifier) SerializationHelper 
.read("C:/Weka-3-7/data/j48.model1"); 

System. out.println (" 反 序列 化 模型 成 功 ! ") ; 

System. out.println (" 反 序列 化 模型 如 下 : ") ; 

System.out.println (cls2); 


2. 头 信息 序列 化 


本 示例 展示 如 何 对 模型 进行 序列 化 和 反 序列 化 。 与 上 一 个 示例 不 同 的 是 ， 本 例 将 训练 
好 的 模型 和 头 信息 一 起 序列 化 ， 这 样 就 和 探索 者 界面 的 保存 功能 一 样 。 在 反 序列 化 时 ， 也 


要 相应 地 ; 


将 分 类 器 模型 和 头 信息 分 开 ， 这 样 能 够 检查 模型 与 测试 集 格式 是 否 兼容 。 完 整 代 


码 见 程序 清单 7.68， 代 码 还 是 使 用 SerializationHelper 类 ， 但 与 前 例 所 使 用 的 write 方法 和 
read 方法 不 同 ， 本 例 调用 writeAll 方法 进行 序列 化 ， 调 用 readAll 方法 进行 反 序列 化 ， 不 同 


点 在 于 后 


j 的 两 个 方法 能 够 序列 化 或 反 序列 化 多 个 对 象 。 


程序 清单 7.68 ”HeaderSerialization java 


Package wekalearning.serialization; 


import weka.classifiers.Classifier; 

import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.SerializationHelper; 

import weka.core.converters.ConverterUtils.DataSource; 


/太太 


* 分 类 器 及 头 信息 序列 化 和 反 序列 化 示例 


xf 


public class HeaderSerialization { 


public static void main (String[] args) throws Exception { 


// 加 载 训练 集 

Instances train = DataSource 
.read("C:/Weka-3-7/data/segment-challenge.arff"); 

train.setClassIndex (train.numAttributes() - 1); 

// 训练 J48 

Classifier cls = new J48(); 

cls.buildclassifier (train); 

// 序列 化 分 类 器 及 头 信息 

Instances header = new Instances (train, 0); 

SerializationHelper.writeAll("C:/Weka-3-7/data/j48.model", 


new Object[] { cls, header }); 
System. out.println ("序列 化 分 类 器 及 头 信息 成 功 ! \n"); 


// 加 载 测试 集 

Instances test = DataSource 
.read("C:/Weka-3-7/data/segment-test.arff")7 

test.setClassIndex (test.numAttributes() - 1); 


// 反 序 列 化 模型 
Object o[] = SerializationHelper.readAll("C:/Weka-3-7/data/j48.model"); 
Classifier cls2 = (Classifier) o[0]; 


Instances data = (Instances) ol[1]; 
// 模型 与 测试 集 是 否 兼容 
if (!data.equalHeaders (test) ) 
throw new Exception (" 数 据 不 兼容 ! ") ; 
System. out.println(" 反 序列 化 分 类 器 及 头 信息 成 功 ! ") 7 
System. out.println(" 反 序列 化 模型 如 下 : ") ; 


System.out.println(cl1s2) 7 


7.11 文本 分 类 综合 示例 


本 节 以 一 个 简单 的 文本 分 类 应 用 示例 作为 本 章 学 习 的 结束 ， 程 序 使 用 决策 树 分 类 器 
J48。 文 本 文件 分 为 两 个 类 别 : hit( 命 中 ) 和 miss( 未 命中 )。 用 户 提 供 一 个 选项 指明 文本 语言 
是 中 文 还 是 英文 ， 对 于 中 文 ， 需 要 对 文本 内 容 进行 分 词 处 理 ， 对 于 英文 ， 由 于 本 身 就 使 用 
空格 ， 因 此 不 需要 分 词 。 然 后 再 使 用 StringToWordVector 过 滤器 将 文本 信息 转化 为 单词 的 
向 量 形式 。 每 次 处 理 一 个 文本 文件 需要 调用 一 次 程序 ， 如 果 用 户 为 文本 文件 提供 类 别 标 
签 ， 程 序 就 使 用 该 文件 作为 训练 使 用 ， 和 否则 ， 程 序 就 对 文本 文件 进行 分 类 。 

源 程序 根据 Weka 维基 提供 的 源 代码 进行 改写 ， 原 始 源 代码 说 明 请 参见 网 址 : 
http://weka.wikispaces.com/MessageClassifier。 修 改 了 原始 源 代码 已 弃 用 的 FastVector 类 ， 
添加 了 对 中 文 分 词 的 支持 ， 并 将 全 部 注释 和 信息 提示 改 为 中 文 。 

要 注意 的 是 ， 这 只 是 一 个 展示 如 何 对 文本 分 类 问题 进行 处 理 的 demo， 运 行 效率 不 
高 ， 并 不 建议 在 真正 的 项 目 中 使 用 。 建 议 在 真实 应 用 中 使 用 预 处 理 进行 分 词 处 理 ， 并 构建 
ARFF 格式 的 训练 集 和 测试 集 ， 然 后 在 Weka 探索 者 和 其 他 图 形 界面 中 进行 训练 和 测试 ， 
这 样 才能 得 到 全 面 的 测试 统计 信息 。 


7.11.1 程序 运行 准备 
本 书 使 用 Eclipse IDE 进行 开发 。 
程序 使 用 中 文 分 词 器 是 天 Analyzer 中 文 分 词 器 V2012 U6， 因此 需要 在 Java Build 


了 Path 中 包含 工 Analyzer2012_u6.jar 文件 ， 由 于 下 Analyzer 依赖 于 Lucene， 因 此 还 需要 包 
含 lucene-core-3.6.2.jar 文件 ， 最 后 必须 包含 weka.jar 文件 ， 如 图 7.10 所 示 。 
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7.10 项目 所 需 Java 库 


IKAnalyzer 中 文 分 词 器 还 要 求 配置 文件 ， 因 此 需要 将 了 天 Analyzercfg.xml 文件 和 
stopword.dic 文件 复制 到 Java 项 目的 src 根 目 录 下 ， 前 者 为 分 词 器 扩展 配置 文件 ， 后 者 为 停 
用 词 (停止 词典 )， 该 词典 可 以 使 用 同行 提炼 好 的 停 用 词 ， 也 可 以 自 定 义 。 然 后 Java 项 目下 
还 需要 放置 若干 训练 文本 文件 和 待 分 类 的 测试 文本 文件 ， 本 书 使 用 复旦 大 学 李 荣 陆 提供 的 
文本 分 类 语料库 测试 语 料 ， 网 址 为 http://www.nlpir.org/?action-viewnews-itemid-103。 在 语 
料 库 中 选取 有 关 教 育 和 历史 各 五 篇 材料 ， 并 手工 去 掉 材料 中 的 无 关 人 信息， 例如， 去掉 了 文 
献 来 源 等 头 信息 ， 还 有 材料 尾部 的 本 文责 任 编辑 以 及 个 人 签名 等 与 分 类 无 关 的 信息 ， 如 
图 7.11 所 示 。 


rr = 


图 7.11 各 种 文件 
当然 ， 项 目 中 还 应 该 包含 最 为 重要 的 Java 源 文件 ， 其 内 容 将 在 下 一 节 讲述 。 


7.11.2 源 程序 分 析 


文本 分 类 应 用 程序 源 代 码 如 程序 清单 7.69 所 示 ， 实 现 分 类 功能 的 Java 类 名 为 
MessageClassifier。 主 函数 main(0) 能 接受 的 命令 行 参数 有 四 个 ，-E 选项 指定 文本 是 否 为 英 
文 (默认 省 略 ， 为 中 文 )，-m 选项 指定 待 处 理 的 文本 文件 名 称 ，-t 选项 指定 序列 化 
MessageClassifier 对 象 的 模型 文件 ， 可 选 的 -c 选项 指定 文本 文件 的 类 别 标签 。 如 果 用 户 提 
供 类 别 标签 ， 文 本 将 作为 训练 样本 处 理 ;， 否则， 正在 运行 的 MessageClassifier 对 象 将 对 文 
本 进行 分 类 ， 分 类 为 hit 或 miss 两 个 类 别 。 

main() 方 法 将 文本 文件 内 容 读 入 到 Java 的 StringBuffer 对 象 中 ， 然 后 检查 文本 是 否 为 
英文 ， 如 果 不 是 英文 则 需要 进行 分 词 处 理 ， 和 否则 不 分 词 。 下 一 步 检查 用 户 是 否 提供 了 分 类 
标签 ， 然 后 从 -t 选项 指定 的 序列 化 文件 中 将 对 象 反 序列 化 MessageClassifier 对 象 中 ， 如 果 
不 存在 序列 化 文件 ， 则 创建 一 个 MessageClassifier 类 的 新 对 象 。 不 管 是 上 述 情况 的 哪 一 
种 ， 结 果 对 象 都 称 为 messageC1。 检 查 命令 行 选项 之 后 ， 如 果 用 户 提供 分 类 标签 ， 程 序 会 


调用 updateData0 方 法 更 新 存储 在 messageCl 中 的 训练 数据 ， 否 则 ， 程 序 会 调用 
classifyMessage() 对 文本 进行 分 类 。 最 后 ， 由 于 messageCl 对 象 可 能 已 经 改变 ， 因 此 将 该 对 
象 保存 回 序列 化 文件 。 


程序 清单 7.69 ”MessageClassifierjava 完整 程序 
/ 湛 沉 


* 将 简短 的 文本 信息 分 类 为 两 个 类 别 的 Java 程序 
WA 


import weka.core.Attribute; 

import weka.core.DenseInstance; 

import weka.core.Instance; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.classifiers.Classifier; 

import weka.classifiers.trees.J48; 

import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.SstringToWordVector; 


import java.io.FileInputStreamy7 
import java.io.FileNotFoundException; 
import java.io.FileOutputstream; 
import java.io.FileReader; 

import java.io.ObjectInputstream; 
import java.io.Objectoutputstream; 
import java.io.Reader; 

import java.io.Serializable; 
import java.io.StringReader7 
import java.util.ArrayList; 
import java.util.List; 


import org.apache.lucene.analysis.Analyzer; 

import org.apache.lucene.analysis.TokenStream; 

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; 
import org.wltea.analyzer.lucene.IKAnalyzer; 

public class MessageClassifier implements Serializable { 


Private static final long serialVersionUID = -6705084686587638940L; 


/* 迄今 收集 训练 数据 */ 


Private Instances m Data = null; 


/* 用 于 生成 单词 计数 的 过 滤器 */ 


Private StringToWordVector m Filter = new StringToWordVector (); 


/* 实际 的 分 类 器 */ 


Private Classifier m Classifier = new J48(); 


/* 模型 是 否 为 最 新 */ 
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Private boolean m UpToDate; 


/*# 

* 构建 空 训练 集 

二 

public MessageClassifier() throws Exception { 


String nameOfDataset = "MessageClassificationProblem"; 


// 创建 的 属性 列表 
List<Attribute> attributes = new ArrayList<Attribute>(); 


// 添加 属性 以 保存 文本 信息 
attributes .add (new Attribute ("Message", (List<String>) nul1) ) 7 


// 添加 类 别 属性 

List<String> classValues = new RrrayList<String> () 7 
classValues.add("miss") 

classValues.add ("hit"); 

attributes.add (new Attribute ("Class", classValues)); 


// 创建 初始 容量 为 100 的 数据 集 

m Data = new Instances (nameOfDataset, (ArrayList<Attribute>) attributes, 100); 
// 设置 类 别 索 引 
m Data.setClassIndex (m Data .numAttributes() - 1); 


/ 太太 

* 使 用 给 定 的 训练 文本 信息 更 新 模型 

Ss 

public void updateData (String message, String classValue) throws Exception { 


// 把 文本 信息 转换 为 实例 


Instance instance = makeInstance (message, m Data); 


// 为 实例 设置 类 别 值 


instance.setClassValue (classValue); 


// 添加 实例 到 训练 数据 
m Data.add (instance); 
m UpToDate = false; 


// 输出 提示 信息 
System.err.println ("更 新 模型 成 功 ! ") ; 


/** 

* 分 类 给 定 的 文本 消息 

2 

public void classifyMessage (String message) throws Exception { 


@« 


// 检查 是 否 已 构建 分 类 器 


if (m Data.numInstances () 一 0) { 
throw new Exception (" 没 有 分 类 器 可 用 。") ; 


// 检查 是 否 分 类 器 和 过 滤器 为 最 新 
if (!m UpToDate) { 


// 初始 化 过 滤器 ， 并 告知 输入 格式 
m Filter.setIinputFormat (m Data); 


// 从 训练 数据 生成 单词 计数 


Instances filteredData = Filter.useFilter(m Data, m Filter); 


// 重建 分 类 器 
m Classifier.buildclassifier (filteredData); 
m UpToDate = true; 

} 


// 形成 单独 的 小 测试 集 ， 所 以 该 文本 信息 不 会 添加 到 m_Data 的 字符 串 属性 中 


Instances testset = m Data.stringFreestructure(); 


// 使 文本 信息 成 为 测试 实例 


Instance instance = makeInstance (message, testset); 


// 过 滤 实例 
m Filter.input (instance) 7 
Instance filteredInstance = m Filter.output (); 


// 获取 预测 类 别 值 的 索引 


double predicted = m Classifier.classifyInstance (filteredInstance) 7 


// 输出 类 别 值 
System.err.println ("文本 信息 分 类 为 : " 
+ m Data.classAttribute() .value ( (int) predicted)); 


太太 
* 将 文本 信息 转换 为 实例 的 方法 
Private Instance makeInstance (String text, Instances data) { 


// 创建 一 个 属性 数量 为 2， 权 重 为 1， 全 部 值 都 为 缺失 的 实例 


Instance instance = new DenseInstance (2); 


// 设置 文本 信息 属性 的 值 
Attribute messageAtt = data.attribute ("Message"); 
instance.setValue (messageAtt, messageAtt.addstringValue (text)); 


// 让 实例 能 够 访问 数据 集中 的 属性 信息 


instance.setDataset (data); 
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return instance; 
} 


/ 法 大 
* 主 方法 
* 可 以 识别 下 列 参数 : 
-E 
文本 是 否 为 英文 。 默认 为 中 文 ， 省 略 该 参数 
-m 文本 信息 文件 
指向 一 个 文件 ， 其 中 包含 待 分 类 的 文本 信息 ， 或 用 于 更 新 模型 的 文本 信息 。 
=-c 类 别 标签 
如 果 要 更 新 模型 ， 文 本 信息 的 类 别 标签 。 省 略 表示 需要 对 文本 信息 进行 分 类 。 
- 模型 文件 
包含 模型 的 文件 。 如 果 不 存在 该 文件 ， 就 会 自动 创建 。 


@param args 命令 行 选项 
public static void main (String[] options) { 
try { 

// 读 入 文本 信息 文件 ， 存 储 为 字符 串 


String messageName = Utils.getOption('m', options); 
if (messageName.length() = 0) { 
throw new Exception ("必须 提供 文本 信息 文件 的 名 称 。") ; 
} 
FileReader m = new FileReader (messageName); 
StringBuffer message = new StringBuffer(); 
int 1; 
while ((1 = m.read()) != -1) { 
message.append ( (char) 1); 
下 
m.close(); 


// 检查 是 否 文 本 为 英文 
boolean isEnglish = Utils.getFlag('E', options); 
if(! isEnglish) { 
// 只 有 汉字 需要 进行 中 文 分 词 
Analyzer ikAnalyzer = new IKAnalyzer(); 
Reader reader = new StringReader (message.tostring()); 
TokenStream stream = (TokenStream)ikAnalyzer.tokenstream("", reader); 
CharTermAttribute termAtt = (CharTermAttribute)stream.addAttribute 
(CharTermAttribute.class); 
message = new StringBuffer(); 
while(stream.incrementToken()){ 
message.append (termAtt .toString() + " "); 


} 


// 检查 是 否 已 给 定 类 别 值 


String classValue = Utils.getOoption('c', options); 


// 如 果 模 型 文件 存在 ， 则 读 入 ， 否 则 创建 新 的 模型 文件 
String modelName = Utils.getoption('t', options); 
if (modelName.length() 一 0) { 
throw new Exception ("必须 提供 模型 文件 的 名 称 。") ; 
} 
MessageClassifier messageCl; 
try { 
ObjectInputStream modelInObjectFile = new ObjectInputStream( 
new FileInputStream (modelName) ) 7 
messageCl = (MessageClassifier) modelInObjectFile.readobject (); 
modelInObjectFile.close(); 
} catch (FileNotFoundException e) { 
messageCl = new MessageClassifier(); 
} 


// 处 理 文本 信息 
if (classValue.length() != 0) { 

messageCl .updateData (message.tostring(), classValue); 
} else { 


messageCl.classifyMessage (message.toString())7 
} 


// 保存 文本 信息 分 类 器 对 象 
Objectoutputstream modelOutObjectFile = new ObjectOoutputStream( 
new FileOutputstream(modelName)); 

modelOutObjectFile.writeObject (messageCl1); 
modelOutObjectFile.close(); 

} catch (Exception e) { 
e.printstackTrace (); 

. 


} 


下 面 首先 介绍 构造 函数 MessageClassifier() 如 何 创建 新 的 MessageClassifier 对 象 ， 然 后 
解释 updateData() 方 法 和 classifyMessage() 方 法 是 如 何 工 作 的 。 


1. MessageClassifier () 方 法 


每 次 当 创建 一 个 新 的 MessageClassifier 对 象 时 ， 会 自动 生成 用 于 保持 过 滤器 和 分 类 器 
的 对 象 。 过 程 中 的 重要 部 分 是 创建 数据 集 ， 这 由 构造 函数 MessageClassifier() 完 成 。 首 先 ， 
数据 集 的 名 称 存储 为 字符 串 ， 然 后 为 每 个 属性 创建 Attribute 对 象 ， 第 一 个 Attribute 对 象 容 
纳 对 应 文本 信息 的 字符 串 ， 另 一 个 Attribute 对 象 容纳 文本 信息 的 类 别 。 这 些 对 象 存储 为 
Java 的 List 类 型 中 。 

通过 调用 Attribute 类 的 构造 函数 来 创建 属性 。 该 类 有 一 个 构造 函数 只 需要 一 个 参数 一 一 
属性 名 称 ， 功 能 是 创建 一 个 数值 属性 。 但 是 在 这 里 ， 使 用 的 构造 函数 带 两 个 参数 : 属性 名 
称 和 List<String> 类 型 的 引用 。 如 果 该 引用 为 空 ( 即 null))， 正 如 在 我 们 程序 中 的 构造 函数 那 
样 ，Weka 会 创建 一 个 字符 串 类 型 的 属性 ; 否则 ， 会 创建 一 个 标 称 属性 。 在 这 种 情况 下 ， 
Weka 假设 List<String> 保 持 的 属性 值 为 字符 串 。 然 后 ， 通 过 将 属性 名 称 (class) 和 值 作 为 
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Attribute 类 的 构造 函数 参数 ， 即 new Attribute("Class", classValues)， 创 建 一 个 有 hit 和 miss 
两 个 值 的 类 别 属性 。 注 意 ， 本 书 已 经 弃 用 已 经 宣布 不 再 受 支持 的 FastVector。 

为 了 根据 上 述 属性 信息 来 创建 数据 集 ，MessageClassifier(0) 必 须 创 建 一 个 Weka 核心 包 
中 Instances 类 的 对 象 。 程 序 中 的 Instances 构造 函数 带 三 个 参数 : 数据 集 名 称 、 
ArrayList<Attribute> 类 型 的 属性 ， 以 及 一 个 表示 数据 集 初始 容量 的 整数 。 这 里 的 初始 容量 
设置 为 100， 如 果 添 加 更 多 的 实例 容量 会 自动 扩展 。 构 建 好 数据 集 之 后 ，MessageClassifier() 
设置 类 别 属性 的 索引 ， 指 向 最 后 一 个 属性 。 


2. updateData() 方 法 


既然 已 经 知道 如 何 创建 一 个 空 数据 集 ， 现 在 考虑 MessageClassifier 对 象 到 底 该 如 何 整 
合 新 的 训练 样本 信息 。 程 序 中 由 updateData0 方 法 完成 这 个 工作 ， 它 首先 调用 
makeInstance() 方 法 将 给 定 的 文本 信息 转换 为 训练 实例 。makeInstance() 方 法 首先 创建 一 个 带 
两 个 属性 的 Instance 对 象 。 注 意 这 里 的 Instance 为 接口 ， 不 能 直接 实例 化 ， 只 能 实例 化 该 
接口 的 实现 类 ， 由 于 应 用 只 需要 两 个 属性 且 不 稀疏 ， 因 此 ， 使 用 DenseInstance 类 ， 而 不 使 
用 SparseInstance 类 。 所 使 用 的 DenseInstance 对 象 的 构造 函数 只 带 一 个 参数 2， 表 明 要 创 
建 一 个 属性 数量 为 2 且 权重 为 1 的 实例 ， 并 将 实例 的 全 部 值 设置 为 缺失 。makeInstance() 的 
下 一 步 是 设置 字符 串 的 属性 值 容纳 文本 信息 ， 这 是 通过 调用 Instance 对 象 的 setValue() 方 法 
实现 的 ， 这 里 的 setValue0 方 法 带 两 个 参数 ， 第 一 个 参数 为 需要 更 改 其 值 的 Attribute 对 
象 ， 第 二 个 参数 为 对 应 于 字符 串 属性 定义 中 新 值 的 索引 ， 该 索引 由 调用 addStringValue() 方 
法 返回 。addStringValue() 方 法 在 字符 串 属性 中 添加 了 文本 信息 作为 新 值 ， 并 返回 字符 串 属 
性 定义 中 该 新 值 的 位 置 ( 即 索引 )。 

在 内 部 无 论 对 应 的 属性 类 型 是 哪 一 种 ，Instance 对 象 将 所 有 的 属性 值 都 存储 为 双 精度 
浮 点 数 。 标 称 及 字符 串 属性 通过 存储 属性 定义 中 对 应 的 属性 值 的 索引 来 存储 属性 值 ， 例 
如 ， 标 称 属性 的 第 一 个 值 表示 为 0.0， 第 二 个 值 表示 为 1.0， 以 此 类 推 。 字 符 串 属性 使 用 相 
同 的 方法 ，addStringValue() 方 法 返回 的 是 添加 到 属性 定义 中 的 值 所 对 应 的 索引 。 

一 旦 设 定 了 字符 串 属性 的 值 ，makeInstance0 方 法 通过 调用 Instance 对 象 的 setDataset() 
方法 ， 为 新 创建 的 实例 访问 数据 属性 信息 传递 一 个 数据 集 的 引用 。 在 Weka 中 ，Instance 对 
象 不 存储 每 个 属性 的 类 型 ， 而 是 存储 数据 集 的 引用 ， 从 数据 集 可 以 检索 到 相应 的 属性 信息 。 

返回 来 看 updateData() 方 法 ， 新 的 实例 从 makeInstance0 返 回 后 ， 在 这 里 设置 实例 类 别 
值 ， 并 且 将 实例 添加 到 训练 数据 中 。 最 后 将 m_UpToDate 的 状态 设 为 false， 该 标志 表明 训 
练 数据 已 发 生变 化 ， 预 测 模型 需要 最 新 。 


3. classifyMessage() 方 法 


现在 来 分 析 MessageClassifier 是 如 何 处 理 未 知 类 别 标签 的 文本 信息 。classifyMessage() 
方法 首先 通过 检查 是 否 有 可 用 的 训练 实例 ， 来 确定 是 否 已 经 构建 了 分 类 器 ， 然 后 检查 分 类 
器 的 状态 是 否 最 新 。 如 果 因 为 训练 数据 已 经 改变 而 使 分 类 器 的 状态 不 是 最 新 ， 则 必须 重建 
分 类 器 。 然 而 ， 在 这 样 做 之 前 ， 必 须 使 用 StringToWordVector 过 滤器 将 数据 转换 成 适合 
学 习 的 格式 。 首 先 调用 setInputFormat()， 通 过 将 输入 数据 集 的 引用 传递 给 过 滤器 ， 告 诉 过 
滤器 输入 数据 的 格式 。 每 次 调用 该 方法 时 会 初始 化 过 滤器 ， 也 就 是 ， 复 位 其 内 部 的 设置 。 
下 一 步 ， 调 用 useFilter() 方 法 转换 数据 ，Filter 类 的 useFilter() 方 法 将 过 滤器 应 用 到 数据 集 。 


此 时 ， 因 为 StringToWordVector 已 经 初始 化 ， 它 通过 训练 数据 集 计 算出 字典 ， 然 后 将 它 形 
成 一 个 单词 向 量 。 从 useFilter() 方 法 返回 后 ， 直 到 再 次 调用 inputFormat() 方 法 进行 初始 化 之 
前 ， 过 滤器 的 所 有 内 部 设置 都 是 固定 的 。 这 使 得 它 可 以 在 不 更 新 过 滤器 的 内 部 设置 的 情况 
下 过 滤 测 试 实例 ， 这 里 的 内 部 设置 是 指 字典 。 

过 滤 数 据 之 后 ， 程 序 通 过 将 过 滤 后 的 训练 数据 作为 参数 ， 传 递 给 buildClassifier() 方 法 
和 E 建 分 类 器 (例子 中 为 J48 决策 树 )， 然 后 将 m_UpToDate 设置 为 tue。buildClassifier() 方 法 
必须 先 完全 初始 化 模型 的 内 部 设置 ， 然 后 再 生成 新 的 分 类 器 ， 这 是 Weka 的 一 个 重要 的 约 
定 ， 详 细 内 容 可 参见 第 8 章 。 因 此 ， 在 调用 buildClassifier() 方 法 之 前 ， 并 不 需要 构建 新 的 
J48 分 类 器 对 象 。 

确保 存储 在 m_Classifier 的 模型 是 最 新 的 之 后 ， 对 文本 信息 进行 分 类 。 在 调用 
ImakeInstance() 方 法 创建 Instance 对 象 之 前 ， 会 创建 一 个 新 的 Instances 对 象 来 存放 新 实例 ， 
然后 再 将 该 Instances 对 象 作为 测试 集 参 数 传递 给 makeInstance() 方 法 。 这 样 做 之 后 ， 
makeInstance() 方 法 就 不 会 将 文本 信息 添加 到 m_Data 中 的 字符 串 属性 定义 中 。 和 否则 ， 每 次 
要 对 一 个 新 的 文本 信息 进行 分 类 的 时 候 ，m_Data 对 象 的 大 小 都 会 增长 ， 这 显然 是 不 合理 
的 ，m_ Data 对 象 应 该 只 在 添加 训练 实例 时 才能 增长 。 因 此 ， 程 序 创建 了 一 个 临时 的 
Instances 对 象 ， 一 旦 实例 处 理 完毕 便 可 丢弃 该 临时 对 象 。 使 用 stringFreeStructure() 方法 获 
得 该 对 象 ， 它 返回 一 个 m_Data 副本 ， 其 中 的 字符 串 属 性 为 空 。 只 有 这 样 ， 所 调用 的 
makeInstance() 方法 才 创 建 好 了 新 的 实例 。 

在 对 测试 实例 进行 分 类 之 前 ， 还 必须 先 由 StringToWordVector 过 滤器 进行 过 滤 处 理 。 
调用 input() 方 法 将 实例 输入 到 过 滤器 对 象 ， 再 调用 output() 方 法 获取 转换 后 的 实例 。 然 后 
通过 将 实例 传递 给 分 类 器 的 classifyInstance() 方 法 产生 预测 。 正 如 读者 所 见 ，Weka 将 预测 
编码 为 一 个 double 型 的 值 ， 这 使 得 评估 模块 以 类 似 的 方式 来 处 理 分 类 预测 和 数值 预测 模 
型 。 对 于 诸如 本 例 的 分 类 预测 ，double 型 变量 保存 预测 的 类 别 值 的 索引 。 要 输出 该 类 别 值 
对 应 的 字符 串 ， 程 序 调用 数据 集 的 类 别 属性 的 value0 方 法 。 当 然 ， 要 输出 数值 预测 值 就 更 
容易 了 ， 直 接 输出 即 可 。 

7.11.3 ”运行 说 明 

如 果 完 成 编码 且 没有 任何 编译 错误 ， 这 只 是 完成 了 一 半 的 工作 ， 另 一 半 的 工作 就 是 对 
程序 进行 测试 。 

这 里 采用 Eclipse IDE， 当 然 直接 在 IDE 下 运行 最 为 方便 。 首 先 ， 在 Eclipse 的 Package 
Explorer 下 ， 右 击 MessageClassifier.java 文件 ， 在 弹出 的 上 下 文 菜单 中 选择 Run As | Run 
Configurations 菜单 项 ， 确 保 你 的 Project 和 Main class 的 名 称 正确 无 误 ， 然 后 单 击 
Arguments 标签 页 切换 至 Arguments 面板 ， 在 Program arguments 子 面板 的 多 行 编辑 器 中 输 
入 如 下 命令 参数 : 


MessageClassifier -m education01.txt -c miss -t messageclassifier.model 


结果 如 图 7.12 所 示 。 然 后 单 击 Run 按钮 启动 运行 ， 稍 等 片刻 ， 在 Eclipse 右 下 部 的 
Console 面板 中 会 显示 红色 的 “更 新 模型 成 功 ! ”信息 ， 如 图 7.13 所 示 。 假 如 刷新 一 下 项 
目 ， 可 以 看 到 在 训练 集 文件 的 同 级 目录 下 ， 生 成 了 一 个 messageclassifier.model 文件 ， 这 就 
是 序列 化 的 模型 对 象 。 
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图 7.12 运行 参数 


problems | @ Javadoc | Declaration | Search [® Console © > 
terminated> MessageClassifier Uave Application] CNprogram Files 86)Vave\re7\binNavaw.exe (2013-7-10 下 于 80 

胃 % 区 | 本 轩 固 加 吕 日 - 中 > 
加 蚜 扩 车 舍 止 阅 四: Stopword .dic ~ 
更 新 模型 成 功 ! 


图 7.13 训练 运行 结果 


重复 上 述 过 程 ， 只 不 过 分 别 将 命令 参数 里 的 education01.txt 更 改 为 education02.txt 和 
education03.txt， 也 就 是 使 用 前 三 个 教育 类 别 的 文本 当 作 训 练 集 。 然 后 ， 将 训练 文件 分 别 更 
改 为 history01.txt、history02.txt 和 history03.txt， 别 忘 了 要 将 miss 更 改 为 hit， 也 就 是 历史 
类 的 文本 为 命中 ， 教 育 类 的 文本 为 未 命中 ， 再 次 启动 训练 。 至 此 ， 已 经 使 用 六 个 文本 完成 
分 类 模型 的 训练 ， 下 一 步 进行 预测 。 

仍然 按照 前 述 的 过 程 打开 如 图 7.12 所 示 的 对 话 框 ， 在 Program arguments 子 面板 的 多 
行 编辑 器 中 将 命令 参数 修改 如 下 : 


MessageClassifier -m education04.txt -t messageclassifier.model 


其 含义 是 ， 使 用 构建 好 的 模型 预测 education04.txt 文件 的 类 别 。 单 击 Run 按钮 ， 运 行 
结果 如 图 7.14 所 示 。 


| 这 problems | @ Javadoc | 区 Declaration| 只 Search | 目 Console 3 ET 
-tarminated、MeccageClassifer [Java Application] CiNprogram Files (x86JVavaNjrs7NbinNiavawexe (2013-7-10 下 午 8:1 
| Xx 六 | 全 因 加 图 吉日 " 口 - 
| 加 二 扩展 仿 止 词典 : StOPword .dic 
| 文本 信息 分 类 为 : miss 


图 7.14 ”预测 运行 结果 


可 见 ， 运 行 结果 符合 预期 。 读 者 可 自行 预测 其 他 文本 文件 ， 甚 至 再 多 找 一 些 语 料 库 ， 
检查 分 类 算法 性 能 。 


7.1 设置 Eclipse IDE 环境 ， 完 成 ARFF 文件 的 加 载 和 保存 。 

7.2 设置 数据 库 ， 从 数据 库 中 加 载 和 保存 数据 集 。 

7.3 ”完成 在 内 存 中 创建 数据 集 的 实验 。 

7.4 ”完成 简单 过 滤器 、 批 量 过 滤 和 即时 过 滤 三 种 方式 的 实验 ， 并 说 明 三 种 过 滤 方 式 的 
不 同 。 

7.5 从 第 7.7 节 分 类 的 6 个 实验 中 任 选 3 个 实验 完成 。 

7.6 ”从 第 7.7 节 聚 类 的 5 个 实验 中 任 选 3 个 实验 完成 。 

7.7 ”完成 第 7.8 节 属 性 选择 中 的 使 用 元 分 类 器 和 使 用 过 滤器 实验 。 

7.8 ”完成 可 视 化 ROC 曲线 实验 。 

7.9 ”编程 实现 模型 序列 化 。 

7.10 ”实际 运行 文本 分 类 示例 ， 并 说 说 如 何 对 书 中 的 例子 进行 改进 的 思路 。 
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假如 开发 人 员 想 要 实现 一 个 Weka 所 没有 的 、 有 特殊 目的 的 学 习 算 
法 ; 或 者 ， 假 如 想 要 从 事 机 器 学 习 研 究 ， 想 要 钻研 某 个 新 的 学 习 方 案 ; 或 
者 ， 假 设想 通过 自己 的 实际 编程 ， 更 多 地 了 解 归纳 算法 的 内 部 运作 。 研 究 
Weka 学 习 方 案 源 代码 是 达到 上 述 目标 的 唯一 途径 ， 本 章 使 用 一 个 简单 的 
例子 ， 展 示 在 编写 分 类 器 时 ， 如 何 充分 利用 Weka 中 的 类 层次 结构 。 

下 面 以 分 析 NaiveBayes 分 类 器 源 代码 为 例 ， 讲 述 分 类 器 内 部 的 工作 
原理 ， 读 者 可 类 推 到 其 他 的 分 类 器 。 其 他 的 学 习 方案 ， 包 括 聚 类 器 算法 和 
关联 规则 学 习 器 ， 都 是 以 类 似 的 方式 进行 组 织 的 。 
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8.1 NaiveBayes 源 代码 分 析 


NaiveBayes 分 类 器 是 贝 叶 斯 分 类 器 中 重要 的 一 种 ， 其 分 类 原理 是 通过 实例 的 先 验 概 
率 ， 利 用 贝 叶 斯 公式 计算 出 后 验 概率 ， 即 该 实例 属于 某 个 类 别 的 概率 ， 选 择 具有 最 大 后 验 
概率 的 类 别 作为 实例 的 类 别 。NaiveBayes 模型 有 着 坚实 的 数学 基础 ， 以 及 稳定 的 分 类 准确 
率 。 同 时 ，NaiveBayes 模型 所 需 估计 的 参数 较 少 ， 对 缺失 数据 不 太 敏 感 ， 算 法 也 比较 简 
单 。 因 此 选择 NaiveBayes 源 代码 进行 分 析 。 

如 程序 清单 8.1 所 示 ，weka.classifiers.bayes.NaiveBayes 类 继承 了 AbstractClassifier 
类 ， 并 实现 了 OptionHandler、WeightedInstancesHandler 和 TechnicalInformationHandler 接 
口 。AbstractClassifier 是 一 个 抽象 类 ，Weka 中 所 有 的 预测 数值 型 或 标 称 型 的 学 习 方案 都 要 
继承 该 超 类 ， 注 意 分 类 器 必须 实现 distributionForInstance() 方法 或 classifyInstance() 方 法 的 
两 者 之 一 ， 或 全 部 实现 两 个 方法 。OptionHandler 接口 能 让 实现 类 理解 选项 ， 
WeightedInstancesHandler 接口 使 实现 类 能 够 利用 实例 权重 所 提供 的 信息 ， 
TechnicalInformationHandler 接口 允许 实现 类 在 Weka 图 形 用 户 界面 中 显示 算法 的 参考 资 
料 ， 如 论文 、 书 目 等 。 

静态 变量 serialVersionUID 是 序列 化 版 本 ID; 二 维 数组 m_Distributions 是 属性 估计 
器 ， 保 存 用 于 计算 先 验 概率 分 布 P(X|Yi) 的 参数 ， 变 量 m_ClassDistribution 是 类 别 估计 器 ， 
用 于 保存 类 别 分 布 P(Yi); 布尔 变量 m_UseKermelEstimator 表示 数值 属性 是 否 使 用 核 密度 估 
计 器 来 替代 正 态 分 布 ， 布 尔 变 量 m_UseDiscretization 表示 数值 属性 是 否 使 用 离散 化 替代 正 
态 分 布 ; 整 型 变量 m_ NumClasses 用 于 保存 类 别 的 数量 ，1 表示 数值 类 别 ; 变量 
m Instances 是 数据 集 标题 ， 用 于 打印 半 智 能 化 的 模型 ,静态 常量 
DEFAULT NUM_PRECISION 是 数值 属性 的 精度 参数 ， 变量 m_Disc 是 离散 化 过 滤器 ; 布 
尔 变量 m_displayModelInOldFormat 指定 是 否 使 用 旧 格 式 显示 模型 。 


程序 清单 8.1 NaiveBayes 变量 


public class NaiveBayes extends AbstractClassifier implements OptionHandler, 
WeightedInstancesHandler, TechnicalInformationHandler { 


/** 序列 化 版 本 ID */ 
static final long serialVersionUID = 5995231201785697655L; 


/** 属性 估计 器 */ 
Protected Estimator[][] m Distributions; 


/xx 类 别 估计 器 */ 
Protected Estimator m ClassDistribution; 


- 
* 数值 属性 是 否 使 用 核 密度 估计 器 来 苦 代 正 态 分 布 
ny. 


Protected boolean m UseKernelEstimator = false; 


/** 
* 数值 属性 是 否 使 用 离散 化 蔡 代 正 态 分 布 
Sy 


Protected boolean m UseDiscretization = false; 


/** 类 别 的 数量 ，1 表示 数值 类 别 */ 
Protected int m NumClasses; 


/** 

* 数据 集 标题 ， 用 于 打印 半 智能 化 的 模型 
Np 

Protected Instances m Instances; 


茸 阔 前 证 泗 汀 半 世 刁 协 8 浇 本 


/*** 数值 属性 的 精度 参数 */ 
Protected static final double DEFAULT NUM PRECISION = 0.01; 


/** 

* 离散 化 过 滤器 

Fp 

Protected weka.filters.supervised.attribute.Discretize m Disc = null; 


太太 
* 是 否 使 用 旧 格式 显示 模型 
i 


Protected boolean m displayModelInOldFormat = false; 


NaiveBayes 类 的 第 一 个 方法 是 globalmnfo0， 如 程序 清单 8.2 所 示 。 该 方法 只 是 返回 一 
个 描述 分 类 器 基本 信息 的 字符 串 ， 当 用 户 在 Weka 图 形 用 户 界面 中 选中 该 分 类 器 时 ， 会 显 
示 该 字符 串 。 字 符 串 另 一 部 分 ， 由 第 二 个 方法 一 一 getTechnicalInformation() 产 生 ， 该 方法 
返回 NaiveBayes 算法 的 参考 书目 信息 。 


程序 清单 8.2 ”globalInfo() 方 法 


public String globalInfo() { 
return "Class for a Naive Bayes classifier using estimator classes. Numeric" 

+ " estimator precision values are chosen based on analysis of the " 

+ " training data. For this reason, the classifier is not an" 

+ " UpdateableClassifier (which in typical usage are initialized with 
Zero™ 

+ " training instances) -- if you need the UpdateableClassifier 
functionality," 

+ " use the NaiveBayesUpdateable classifier. The NaiveBayesUpdateable" 

+ " classifier will use a default precision of 0.1 for numeric 
attributes" 

+ " when buildclassifier is called with zero training instances.\n\n" 

+ "For more information on Naive Bayes classifiers, see\n\n" 

+ getTechnicalInformation() .tostring(); 


} 


程序 清单 8.3 所 示 的 getTechnicalInformation() 方 法 返回 该 分 类 器 类 技术 方面 的 信息 ， 
信息 封装 为 TechnicalInformation 对 象 ， 包 含 分 类 器 类 的 技术 背景 的 详细 信息 。 例 如 ， 作 为 
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该 类 实现 理论 基础 的 参考 论文 或 书籍 。 
程序 清单 8.3 ”getTechnicalInformation() 方 法 


public TechnicalInformation getTechnicalInformation() { 
TechnicalInformation result; 


result = new TechnicalInformation (Type. INPROCEEDINGS); 
result .setValue (Field.AUTHOR, "George H. John and Pat Langley"); 
result.setValue (Field. TITLE, 

"Estimating Continuous Distributions in Bayesian Classifiers"); 
result.setValue (Field. BOOKTITLE, 

"Eleventh Conference on Uncertainty in Artificial Intelligence"); 
result.setValue (Field. YEAR, "1995"); 
result.setValue (Field. PAGES, "338-345"); 
result .setValue (Field. PUBLISHER, "Morgan Kaufmann"); 
result.setValue (Field.ADDRESS, "San Mateo"); 


return result; 
} 
第 三 个 方法 为 GetCapabilities()， 如 程序 清单 8.4 所 示 ， 返 回 NaiveBayes 算法 能 处 理 数 
据 的 特征 信息 ， 代 码 设置 了 NaiveBayes 算法 能 处 理 标 称 属性 、 数 值 属性 和 缺失 值 ， 以 及 标 
称 类 别 和 缺失 类 别 值 ， 并 设置 最 少 的 实例 数量 为 0， 即 该 算法 能 处 理 没有 实例 的 数据 。 
Capabilities 的 功能 描述 详 见 下 一 节 。 


程序 清单 8.4 ”getCapabilities() 方 法 


public Capabilities getCapabilities() { 
Capabilities result = super.getCapabilities(); 
result .disableAll (); 


// 属性 

result .enable (Capability.NOMINAL ATTRIBUTES); 
result .enable (Capability.NUMERIC ATTRIBUTES); 
result .enable (Capability.MISSING VALUES); 


// 类 别 
result .enable (Capability.NOMINAL CLASS); 
result .enable (Capability.MISSING CLASS VALUES); 


// 实例 
result .setMinimumNumberInstances (0); 


return result; 
} 
程序 清单 8.5 所 示 的 buildClassifier0) 方 法 由 训练 数据 集 构建 分 类 器 模型 。 在 本 例 中， 
该 方法 首先 检查 训练 数据 的 特征 与 NaiveBayes 分 类 器 能 力 的 匹配 情况 ， 即 分 类 器 是 否 能 够 
处 理 该 数据 集 。 如 果 训 练 数据 的 特征 不 满足 分 类 器 的 要 求 ， 会 导致 Capabilities 对 象 抛 出 例 
外 。 为 了 避免 更 改 原始 数据 ， 方 法 复制 了 一 份 训 练 集 ， 并 调用 weka.core.Instances 的 方法 


来 删除 具有 缺失 类 别 值 的 全 部 实例 ， 因 为 这 些 实例 在 训练 过 程 中 没有 用 处 。 
然后 ， 如 果 用 户 设置 了 需要 离散 化 ， 就 对 实例 进行 离散 化 。 


程序 做 了 很 多 工作 来 统计 类 别 分 布 PCY) 和 类 别 条 件 概率 分 布 P(X|Y)。 由 于 NaiveBayes 


分 类 器 只 能 处 理 连续 的 数值 属性 和 离散 的 标 称 属性 ， 如 果 是 前 者 ， 需 要 判断 上 


户 所 设 定 的 


是 否 使 用 核 估计 器 的 选项 ， 再 选择 是 构建 KermelEstimator 对 象 还 是 NormalEstimator 对 
象 ， 如 果 是 后 者 ， 直 接 构 建 DiscreteEstimator 对 象 。KemelEstimator、NormalEstimator 和 


DiscreteEstimator 这 三 个 估计 器 ， 都 是 Estimator 类 的 子 类 。 


程序 清单 8.5 buildClassifier(Instances instances) 方 法 


Ppublic void buildclassifier (Instances instances) throws Exception { 


// 分 类 器 能 否 处 理 数据 
getCapabilities() .testWithFail (instances); 


// 删除 具有 缺失 类 别 值 的 实例 
instances = new Instances (instances); 
instances.deleteWithMissingClass (); 


m NumClasses = instances.numClasses(); 


// 复制 训练 集 


m_Instances = new Instances (instances) ; 


// 如 果 需 要 ， 就 对 实例 进行 离散 化 


if (m UseDiscretization) { 


m Disc = new weka.filters.supervised.attribute.Discretize(); 


m Disc.setInputFormat (m Instances); 


m Instances = weka.filters.Filter.useFilter(m Instances, m Disc); 


} else { 
m Disc = null; 
} 


// 为 概率 分 布 预 留 空间 

// 类 别 条 件 概率 分 布 P(X1Y) 

m_Distributions = new Estimator[m Instances.numAttributes() - 1] 
-numClasses ()]7 

// 类 别 分 布 P(Y) 


[m Instances 


m ClassDistribution = new DiscreteEstimator (m Instances.numClasses(), 


true); 
int attIndex = 0; 
Enumeration enu = m Instances.enumerateAttributes (); 
// 循环 处 理 每 一 个 属性 
while (enu.hasMoreElements()) { 
Attribute attribute = (Attribute) enu.nextElement (); 


// 如 果 属 性 为 数值 型 ， 根 据 相 邻 值 之 间 的 差异 ， 测 定 估计 器 数值 精度 
double numPrecision = DEFAULT NUM PRECISION; 
if (attribute.type() 一 Attribute.NUMERIC) { 
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// 根据 当前 属性 的 值 对 数据 集 排序 
m Instances.sort (attribute); 


// 排序 之 后 ， 当 前 属性 为 缺失 值 的 实例 就 排 到 最 前 ， 这 样 ， 
// 判断 第 一 个 实例 是 否 缺 失 就 知道 是 否 有 缺失 值 ， 
// 如 果 有 ， 就 没有 必要 执行 


if ((m Instances.numInstances() > 0) 


&& !m Instances.instance(0) .isMissing(attribute)) { 


// lastVal 为 最 后 实例 的 当前 属性 值 

double lastVal = m Instances.instance(0) .value (attribute); 
// currentVal 为 每 个 实例 的 当前 属性 值 ，deltasum 为 差 值 

double currentVal, deltasum = 0; 

// distinct 为 当前 属性 取 不 同 值 的 数量 

int distinct = 0; 

for (int i = 1; i < m Instances.numInstances(); i++) { 


有 


Instance CuUrrentInst = m Instances.instance (i); 
if (currentInst.isMissing(attribute)) { 
break; 


} 
currentVal = currentInst.value (attribute); 


// 如 果 当 前 值 与 最 后 值 不 等 ， 则 相 减 并 将 差 值 累 加 至 deltasum 
if (CurrentVal != lastVal) { 

deltaSum += currentVal - lastVal; 

lastVal = currentVal; 

distinct++; 
} 


// 最 终 的 numPrecision 就 是 deltasum 除 以 distinct 
if (distinct > 0) { 


} 


numPrecision = deltaSum / distinct; 


// 循环 处 理 每 一 个 类 别 标签 
for (int j = 0; j < m Instances.numClasses(); j++) { 
// 判断 当前 属性 的 类 型 
Switch (attribute.type()) { 
// 如 果 为 连续 的 数值 属性 ， 根 据 是 否 使 用 核 估 计 器 的 选项 ， 
// 选择 构建 KernelEstimator 对 象 还 是 NormalEstimator 对 象 ， 
// 两 者 的 构造 函数 都 使 用 numPrecision 作为 参数 
case Attribute.NUMERIC: 
if (m UseKernelEstimator) { 


m_Distributions [attIndex] [j] new KernelEstimator( 


numPrecision); 


} else { 


} 


new NormalEstimator( 


m Distributions[attIindex] [j] 
numPrecision); 


break; 
// 如 果 为 离散 的 标 称 属性 ， 则 构建 DiscreteEstimator 对 象 


case Attribute.NOMINAL: 


m_Distributions [attIndex] [j] = new DiscreteEstimator( 
attribute.numValues (), true); 
break; 
// 不 支持 其 他 属性 
default: 


throw new Exception ("Attribute type unknown to NaiveBayes"); 


和 
attIndex++7 
} 


// 统计 每 一 个 实例 

Enumeration enumInsts = m Instances.enumerateInstances (); 

while (enumInsts.hasMoreElements()) { 
Instance instance = (Instance) enumInsts .nextElement (); 
// 调用 updateclassifier () 方 法， 用 实例 更 新 分 类 器 
updateClassifier (instance) 7 

} 


// 节省 空间 
m Instances = new Instances(m Instances, 0); 
} 


程序 清单 8.6 所 示 的 updateClassifier() 方 法 使 用 给 定 的 实例 更 新 分 类 器 。 输 入 参数 为 要 


纳入 进 模型 的 新 的 训练 实例 ， 如 果实 例 无 法 纳入 进 模型 中 ， 则 抛 出 例外 。 
程序 清单 8.6 updateClassifier(Instance instance) 方 法 


public void updateclassifier (Instance instance) throws Exception { 


if (!instance.classIsMissing()) { 
Enumeration enumAtts = m Instances.enumerateAttributes () 7 
int attIndex = 0; 
// 循环 处 理 每 一 个 属性 
while (enumAtts .hasMoreElements ()) { 
Attribute attribute = (Attribute) enumAtts.nextElement (); 
if (!instance.isMissing(attribute)) { 
// m_Distributions 第 一 个 下 标 为 当前 属性 下 标 ， 第 二 个 下 标 是 类 别 值 
// 统计 样本 实例 对 应 类 别 属性 值 的 分 布 。 
// 调用 Estimator 的 Rddvalue 方法 将 新 数据 值 加 入 到 当前 评估 器 中 
m_Distributions [attIndex] [(int) instance.classValue()] 
-addValue (instance.value (attribute), 
instance.weight ()); 
} 
attIndex++; 


} 

// 统计 类 别 分 布 

m ClassDistribution.addValue (instance.classValue ()， 
instance.weight ()); 


ER 
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程序 清单 8.7 所 示 的 distributionForInstance() 方 法 对 于 给 定 的 测试 计算 隶属 类 别 的 概 
率 。 输 入 参数 为 待 分 类 的 实例 ， 返 回 预测 类 别 的 概率 分 布 ， 如 果 在 生成 预测 中 出 了 什么 问 
题 ， 就 会 抛 出 例外 。 
程序 中 的 理论 基础 是 如 下 的 贝 叶 斯 公式 : 
PCY = TPE Y=»,) 


POY =y,1X)= a 


由 于 POV) 都 相同 ， 因 此 上 述 的 类 别 预 测 公 式 简 化 为 
P(Y =y,|X)=argmax P(Y =y)] IP(X,1Y=»,) 


i=l 


distributionForInstance() 方 法 的 主要 工作 就 是 计算 P(Y = y, | X)。 


程序 清单 8.7 distributionForInstance(Instance instance) 方 法 


Ppublic double[] distributionForInstance (Instance instance) throws Exception { 


// 如 果 需 要 ， 就 对 实例 进行 离散 化 

if (m UseDiscretization) { 
m Disc.input (instance); 
instance = m Disc.output (); 


} 
// 类 别 的 概率 P(Y) 
double[] probs = new double[m NumClasses]; 
// 循环 得 到 每 个 类 别 的 概率 
for (int ] = 0; j < m NumClasses; j++) { 
probs[j] = m ClassDistribution.getProbability(j); 
Enumeration enumAtts = instance.enumerateAttributes(); 
int attIndex = 0; 
// 循环 处 理 每 个 属性 
while (enumaAtts .hasMoreElements ()) { 
Attribute attribute = (Attribute) enumAtts.nextElement () 7 
if (!instance.isMissing(attribute)) { 
// temp 为 临时 概率 ，max 为 当前 最 大 概率 
double temp, max = 0; 
for (int j = 0; j < m NumClasses; j++) { 
// 计算 每 个 类 别 的 条 件 概率 P(X1Y) 
temp = Math.max(le-75，Math.Pomw( 
m_Distributions [attIndex] [j] 
.getProbability (instance.value (attribute) )， 
m_Instances .attribute (attIndex) .weight ())); 
probs[j] *= temp; 
// 更 新 最 大 概率 值 
if (probs[j] > max) { 
max = probs[j]; 
} 
if (Double.isNaN(probs[j])) { 
throw new Exception( 
"NaN returned from estimator for attribute " 


+ _ attribute-name () 
i 
+ m Distributions [attIndex] [j] 
.tostring()); 
} 
} 
if ((max > 0) && (max < le-75)) { 
// 防止 概率 下 涪 的 危险 
for (int j = 0; j < m NumClasses; j++) { 
probs[j] *= le75; 
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} 
} 


} 
attIndex++7 


} 


// 概率 规范 化 
Utils.normalize (probs); 
return probs; 

} 

如 果 学 习 方案 需要 解释 特定 的 选项 ， 如 是 否 使 用 核 密度 估计 器 ， 就 需要 在 分 类 器 类 中 
实现 weka.core 包 的 OptionHandler 接口 ， 实 现 该 接口 的 分 类 器 类 需要 包含 listOptions()、 
setOptions() 和 getOptions() 三 个 方法 。 这 三 个 方法 的 功能 分 别 是 列 出 分 类 器 的 所 有 特定 方案 
的 选项 ， 对 选项 进行 设置 获取 选项 的 当前 设置 。 如 果 分 类 器 实现 了 OptionHandler 接口 ， 
Evaluation 类 的 evaluation() 方 法 会 自动 调用 这 三 个 方法 。 当 处 理 完 独立 于 方案 的 通用 选项 
之 后 ， 就 会 在 调用 buildClassifier() 方 法 来 生成 新 分 类 器 之 前 ， 先 调用 setOptions() 方 法 来 处 
理 剩 下 的 选项 。 当 Evaluation 类 输出 分 类 器 时 ， 会 调用 getOptions() 方 法 以 输出 当前 设置 的 
选项 列表 。 上 述 三 个 方法 如 程序 清单 8.8、 程 序 清单 8.9 和 程序 清单 8.10 所 示 。 

程序 清单 8.8 所 示 的 listOptions0 方 法 返回 一 个 描述 可 用 选项 的 枚 举 。 程 序 中 使 用 的 
Option 类 的 构造 函数 带 四 个 参数 ， 第 一 个 参数 为 选项 的 描述 字符 串 ， 第 二 个 参数 为 选项 的 
名 称 ， 第 三 个 参数 是 该 选项 所 带 参数 的 个 数 ， 第 四 个 参数 是 选项 概要 介绍 。 


程序 清单 8.8 listOptions() 方 法 


public Enumeration 1istoptions () { 


Vector newVector = new Vector (3) 7 


newVector 
.addElement (new Option ( 
"NtUse kernel density estimator rather than normal\n" 
+ "Ntdistribution for numeric attributes"，"K"， 
0 "RK"))s 
DewVector 
.addElement (new Option ( 
"NtUse supervised discretization to process numeric 
attributes\n", 
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newVector.addElement (new Option( 
"\tDisplay model in old format (good when there are " 
+ mmany classes)\n”, "oO", 0, "-0")); 


return newVector .elements (); 
} 


程序 清单 8.9 所 示 的 setOptions() 方 法 设置 给 定 的 选项 列表 。 由 于 不 能 同时 使 用 核 密度 
估计 器 和 离散 化 ， 因 此 程序 检查 是 否 违反 这 条 规则 ， 如 果 违 反 就 抛 出 例外 。 设 置 完 这 三 个 
特定 选项 之 后 ， 调 用 Utils 类 的 checkForRemainingOptions() 方 法 检查 剩余 选项 。 


程序 清单 8.9 setOptions(String[] options) 方 法 


Public void setOptions (String[] options) throws Exception { 


boolean k = Utils.getFlag('K', options); 
boolean d = Utils.getFlag('D', options); 
if (k && d) 1{ 
throw new IllegalArgumentException("Can't use both kernel density " 
+ "estimation and discretization!"); 
} 
setUseSupervisedDiscretization(d); 
setUseKernelEstimator (k); 
setDisplayModelInOldFormat (Utils.getFlag('0', options)); 
Utils.checkForRemainingOoptions (options); 
} 


程序 清单 8.10 所 示 的 getOptions() 方 法 获取 分 类 器 当前 的 设置 ， 返 回 一 个 由 setOptions() 
方法 传递 进来 的 字符 串 数组 。 
程序 清单 8.10 ”getOptions() 方 法 
public String[] getoptions () { 


String[] options = new String[3]; 
int current = 0; 


if (m UseKernelEstimator) { 
options [current++] = "-K"; 
. 


if (m UseDiscretization) { 
options[current++] = "-D"; 
} 


if (m displayModelInOldFormat) { 
options[current++] = "-O"; 


while (current < options.length) { 
options[current++] = ""; 


} 
return options; 
} 


大 多 数 的 机 器 学 习 模 型 ， 都 能 或 多 或 少 地 解释 在 数据 中 发 现 的 结构 。 因 此 ， 每 个 
Weka 的 分 类 器 ， 和 许多 其 他 的 Java 对 象 一 样 ， 实 现 了 toString() 方 法 ， 以 字符 串 变 量 的 形 
式 产生 自身 文字 表述 。 程 序 清单 8.11 所 示 的 toString() 方 法 返回 NaiveBayes 分 类 器 的 描述 


字符 趾 。 


程序 首先 检查 m_displayModelInOldFormat 选项 ， 如 果 设 置 为 以 旧 格 式 显示 ， 则 直接 
调用 toStringOriginal0) 方 法 返回 分 类 器 模型 。 

由 于 程序 要 以 表格 形式 打印 训练 数据 集 的 各 个 属性 的 统计 信息 ， 因 此 免不了 有 大 量 烦 
琐 的 格式 (如 字符 数 ) 计 算 工作 ， 其 中 也 没有 什么 重要 的 算法 ， 请 读者 参见 程序 中 的 注释 。 


程序 清单 8.11 toString() 方 法 


public String toString() { 
// 是 否 以 旧 格式 显示 
if (m displayModelInOldFormat) { 
return tostringoriginal (); 
} 


StringBuffer temp = new StringBuffer(); 
temp.append ("Naive Bayes Classifier"); 


if (m Instances == null) { 

temp.append(": No model built yet."); 
} else { 

// 最 大 宽度 

int maxWidth = 07 

// 最 大 属性 宽度 


int maxAttwidth = 0; 
// 是 否 使 用 核 密度 


boolean containsKernel = false; 


// 循环 处 理 类 别 值 
// 计算 最 大 宽度 
for (int i = 0; i < m Instances.numClasses(); i++) { 
if (m Instances.classAttribute() .value(i).length() > maxWidth) { 
maxWidth = m Instances.classAttribute() .value (i) .length (); 
} 


} 
// 循环 处 理 属 性 
// 计算 最 大 属性 宽度 
for (int i = 0; i < m Instances.numAttributes(); i++) { 
if (i != m Instances.classIndex()) { 
Attribute a = m Instances.attribute (i); 
if (a.name().length() > maxRttWidth) { 
maxAttWidth = m Instances.attribute (i) .name () .length (); 
} 
if (a.isNominal()) { 
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// 检查 值 
for (int j = 0; j < a.numValues(); j++) { 
String val = a.value(j) + " "7 
if (val.length() > maxAttWwidth) { 
maxAttWidth = val.length(); 


} 


// 循环 处 理 先 验 概率 分 布 
for (int i = 0; i < m Distributions.lengthy i++) { 
for (int j = 0; j < m Instances.numClasses(); j++) { 
if (m Distributions[i] [0] instanceof NormalEstimator) { 
// 对 最 大 宽度 maxWidth， 检 查 均值 mean/ 精 度 precision 和 方差 dev 
NormalEstimator n = (NormalEstimator) m Distributions[i] [j]; 
double mean = Math.1og(Math.abs(n.getMean())) 
/ Math.10g(10.0); 
double precision = Math.1o0g(Math.abs(n.getPrecision())) 
/ Math.10g(10.0); 
double width = (mean > precision) ? mean : precision; 
if (width < 0) { 
width = 1; 
} 
// decimal + # decimal places + 1 
width += 6.0; 
if ((int) width > maxWidth) { 
maxWidth = (int) width; 
} 
} else if (m Distributions[i] [0] instanceof KernelEstimator) { 
containsKernel = true; 
KernelEstimator ke = (KernelEstimator) m Distributions[i] [j]; 
int numK = ke.getNumKernels () 7 
String temps = "K" + numK + ": mean (weight) "7 
if (maxAttWidth < temps.length()) { 
maxAttWidth = temps.1length(); 
} 
// 对 最 大 宽度 maxWwidth， 检 查 均值 means + 权重 weights 
if (ke.getNumKernels() > 0) { 
double[] means = ke.getMeans (); 
double[] weights = ke.getWeights(); 
for (int k = 0; k < ke.getNumKernels(); k++) { 
String m = Utils.doubleToString (means[k], 
maxWidth, 4) -trim() 7 
| 
+ Utils.doubleToSstring (weights[k], 
maxWidth, 1).trim() + ")"; 
if (maxWidth < m.length()) { 
maxWidth = m.length(); 
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} 
} else if (m Distributions[i] [0] instanceof DiscreteEstimator) { 

DiscreteEstimator d = (DiscreteEstimator) 
m Distributions[i] [j]; 
for (int k = 0; k < d.getNumSymbols(); k++) { 

String size = "" + d.getCount (kK); 

if (size.length() > maxWidth) { 

maxWidth = size.length(); 
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} 
int sum = ("" + d.getSumofCounts()).1length(); 
if (sum > maxWidth) { 

maxWidth = sum; 


, 


// 检 查 类 别 标签 的 宽度 
for (int i = 0; i < m Instances.numClasses(); i++) { 
String csize = m Instances.classAttribute() .value (i); 
if (cSize.length() > maxWidth) { 
maxWidth = cSize.length() 7 


// 检查 类 别 先 验 概率 的 宽度 
for (int i = 0; i < m Instances.numClasses(); i++) { 
String priorP = Utils 
.doubleToString( 
((DiscreteEstimator) m ClassDistribution) 
.getProbability (i), 
maxWidth, 2) .trim(); 
priorP = "(" + priorP + ") "7 
if (priorP.length() > maxWidth) { 
maxWidth = priorP.1length(); 


if (maxAttwidth < "Attribute".length()) { 
maxAttWwidth = "Attribute" -length (); 


if (maxAttwidth < " weight sum".length()) { 
maxAttWidth = " weight sum".length(); 


if (containsKernel) { 
if (maxAttWidth < " [precision]".length()) { 
maxAttWidth = " [precision]".length(); 
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maxAttWidth += 2; 


temp.append ("\n\n") 7 
temp .append (pad ("Class", " ", (maxAttWidth + maxWidth + 1) 
— "Class".length(), true)); 


temp .append ("\n"); 
temp .append (pad ("Attribute", " ", 
maxRttWidth - "Attribute".length(), false)); 
// 循环 处 理 类 别 标签 
for (int i = 0; i < m Instances.numClasses(); i++) { 
String classL = m Instances.classAttribute() .value (i); 
temp.append (pad (classL, " ", maxWidth + 1 - classL.length(), 
true) ) 7 
} 
temp.append ("\n"); 
// 循环 处 理 类 别 先 验 
temp .append (pad (""，" "，maxRttWidth，true) ) ; 
for (int i = 0; i < m Instances.numClasses(); i++) { 
String priorP = Utils 
.doubleToString( 
((DiscreteEstimator) m ClassDistribution) 
.getProbability (i), 
maxWidth, 2) .trim(); 


Priore = "(" 4+ priorp + We 
temp .append (pad (priorP, " ", maxWidth + 1 - PriorP.length()， 
true) ); 


} 
temp .append ("\n"); 
temp .append (pad (""， "=", 
maxRAttWidth + (maxwidth * m Instances.numClasses ()) 
+ m Instances.numClasses() + 1, true)); 
temp.append ("\n") 7 


// 循环 处 理 属 性 
int counter = 0; 
for (int i = 0; i < m Instances.numAttributes(); i++) { 
if (i == m Instances.classIndex()) { 
continue; 
} 
String attName = m Instances.attribute (i) .name (); 
temp.append (attName + "\n"); 


if (m Distributions[counter] [0] instanceof NormalEstimator) { 
String meanL = " mean"; 
temp.append (pad (meanL, ™ ", 
maxAttWidth + 1 - meanL.length(), false)); 
for (int j = 0; j < m Instances.numClasses(); j++) { 
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String mean = Utils.doubleToString(n.getMean(), 学 
maxWidth，4) -trim()7 六 

temp .append (pad (mean, ™ ", 案 
maxWidth + 1 - mean.length(), true)); 源 

} 代 
temp.append ("\n"); 码 
// 计算 标准 偏差 分 
String stdDevL = " std. dev."; 析 


temp.append (pad (stdDevL, " ", 
maxAttWidth + 1 - stdDevL.length(), false)); 
for (int j = 0; j < m Instances.numClasses(); j++) { 
NormalEstimator n = (NormalEstimator) 
m_Distributions [counter] [j]; 
String stdDev = Utils.doubleToString(n.getstdDev () ， 
maxWidth，4) .trim() 7 
temp .append (pad(stdDev，"”"， 
maxWidth + 1 - stdDev.length(), true)); 
} 
temp.append ("\n"); 
// 计算 权重 和 
String weightL = " weight sum"; 
temp.append (pad (weightL, "™ ", 
maxAttWidth + 1 - weightL.length(), false)); 
for (int j = 0; j < m Instances.numClasses(); j++) { 
NormalEstimator n = (NormalEstimator) 
m_Distributions [counter] [j]; 
String weight = Utils.doubleToString( 
n.getsumofWeights(), maxWwidth, 4) .trim(); 
temp.append (pad (weight, " ", 
maxWidth + 1 - weight.length(), true)); 
} 
temp.append (™\n"); 
// 计算 精度 
String precisionL = " precision"; 
temp .append (pad (precisionL, " ", maxAttWidth + 1 
- precisionL.length(), false)); 
for (int j = 0; j < m Instances.numClasses(); j++) { 
NormalEstimator n = (NormalEstimator) 
m Distributions[counter] [j]; 
String precision = Utils.doubleToString( 
n.getPrecision(), maxWidth, 4) .trim(); 
temp.append (pad (precision, " ", maxWidth + 1 
- precision.length(), true)); 
} 
temp.append("\n\n"); 


} else if (m Distributions[counter] [0] instanceof 


DiscreteEstimator) { 
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Attribute a = m Instances.attribute (i); 
for (int j = 0; j < a.numValues(); j++) { 
String val =" "+ a.value(j); 
temp.append (pad(val, ™ ", 
maxAttWidth + 1 - val.length(), false)); 
for (int k = 0; k < m Instances.numClasses(); K++) { 
DiscreteEstimator d = (DiscreteEstimator) 
m_Distributions [counter] [k]; 
String count = "" + d.getCount (j); 
temp .append (pad (count, ™ ", 
maxWidth + 1 - count.length(), true)); 
} 
temp.append ("\n"); 
} 
// 计算 合计 
String total = " [total]"; 
temp.append (pad (total, "™ ", 
maxAttWidth + 1 - total.length(), false)); 
for (int k = 0; k < m Instances.numClasses(); k++) { 
DiscreteEstimator d = (DiscreteEstimator) 
m_Distributions [counter] [k]; 
String count = "" + d.getSumofCounts () 7 
temp .append (pad (count，" ", 
maxWidth + 1 - count.length(), true)); 


temp.append("\nN\n") 7 
} else if (m Distributions[counter] [0] instanceof KernelEstimator) { 
String kL = " [# kernels]"; 
temp.append (pad (kL, " ", maxAttWwidth + 1 - kL.length(), 
false)); 
for (int k = 0; k < m Instances.numClasses(); k++) { 
KernelEstimator ke = (KernelEstimator) 
m_Distributions [counter] [k]; 
String nk = "" + ke.getNumKernels(); 
temp .append (pad (nk, " "，maxWidth + 1 - nk.length()， 
true) ) 7 
} 
temp.append ("\n"); 
// 计算 数值 的 核 、 标 准 偏差 和 精度 
String stdDevL = " [std. dev]"; 
temp.append (pad (stdDevL, ™ ", 
maxAttWidth + 1 - stdDevL.length(), false)); 
for (int k = 0; k < m Instances.numClasses(); k++) { 
KernelEstimator ke = (KernelEstimator) 
m Distributions[counter] [Kk]; 
String stdD = Utils.doubleToString(ke.getstdDev (), 
maxWidth, 4) -trim() 7 
temp.append (pad(stdD, ™ ", 
maxWidth + 1 - stdD.length(), true)); 
} 
temp.append ("\n"); 


String precL = " [precision]"™; 
temp.append (pad (precL, ™ ", 
maxAttWidth + 1 - precL.length(), false)); 
for (int k = 0; k < m Instances.numClasses(); k++) { 
KernelEstimator ke = (KernelEstimator) 
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m Distributions[counter] [k]; 

String prec = Utils.doubleToString(ke.getPrecision(), 
maxWidth, 4) .trim(); 

temp.append (pad (prec, " ", 
maxWidth + 1 - prec.length(), true)); 
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} 

temp.append ("\n"); 

// 首先 要 确定 跨 类 别 的 核 的 最 大 数量 

int maxK = 07 

for (int k = 0; k < m Instances.numClasses(); k++) { 
KernelEstimator ke = (KernelEstimator) 
m_Distributions [counter] [k]; 
if (ke.getNumKernels() > maxK) { 

maxK = ke.getNumKernels(); 


for (int j = 0; j < maxK; j++) { 
// 先 计算 均值 
String meanL =" K" + (j +1) + ": mean (weight)"; 
temp .append (pad (meanL，" ", 
maxAttWidth + 1 - meanL.length(), false)); 
for (int k = 0; k < m Instances.numClasses () 7 K++) { 
KernelEstimator ke = (KernelEstimator) 
m Distributions[counter] [kK]; 
double[] means = ke.getMeans (); 
double[] weights = ke.getWeights(); 
String m = "——"; 
if (ke.getNumKernels() 一 0) { 
m= ""+0; 
} else if (] < ke.getNumKernels()) { 
m= Utils.doubleToString(means[j], maxWidth, 4) 
.trim(); 
miti=" (" 
+ Utils.doubleTostring (weights[j], 
maxWidth, 1).trim() + ") "7 


} 
temp .append (pad(m, " ", maxWidth + 1 - m.length(), 
true)); 
} 
temp.append (™\n"); 
} 
temp.append ("\n"); 
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return temp.tostring(); 
} 


程序 清单 8.12 所 示 的 toStringOriginal0 方 法 以 旧 格 式 返 回 分 类 器 的 描述 字符 串 。 相 对 
于 前 面 的 程序 清单 8.11， 旧 格式 简单 多 了 。 程 序 首先 检查 是 否 实例 为 空 ， 如 为 空 则 直接 添 
加 “: No model built yet.”( 模 型 尚未 构建 ) 的 信息 。 然 后 使 用 一 个 外 循环 添加 类 别 的 先 验 概 
率 ， 再 用 一 个 内 循环 添加 属性 分 布 的 参数 ， 最 终 返回 构建 好 的 字符 串 。 

程序 清单 8.12 toStringOriginal() 方 法 


Protected String toStringOriginal() { 


StringBuffer text = new StringBuffer () 7 


text .append ("Naive Bayes Classifier") 7 


if (m Instances 一 null) { 

text.append (": No model built yet."); 
} else { 

try { 


for (int i = 0; i < m Distributions[0] .length; i++) { 
text.append("\n\nClass " 
+ m Instances.classAttribute() .value (i) 
+ ": Prior probability = " 
+ Utils.doubleToString!( 
m ClassDistribution.getProbability (i), 4, 2) 
+ NON 
Enumeration enumAtts = m Instances.enumerateAttributes () 7 
int attIndex = 0; 
while (enumAtts.hasMoreElements()) { 
Attribute attribute = (Attribute) enumAtts 
.nextElement (); 
if (attribute.weight() > 0) { 
text .append (attribute.name() + ": " 
+ m Distributions[attIndex] [i]); 
} 
attIindext++; 
} 
} 
} catch (Exception ex) { 
text .append (ex .getMessage ()); 
} 
' 


return text.tostring(); 
} 


程序 清单 8.13 所 示 的 pad0 方 法 是 一 个 字符 串 填充 的 实用 方法 ， 为 私有 方法 。 其 中 ， 
source 为 原 字符 串 ，padChar 为 填充 字符 ，length 为 填充 次 数 ，leftPad 是 布尔 型 参数 ， 指 示 


是 否 从 左边 填充 。 该 私有 方法 返回 填充 好 的 字符 串 。 
程序 清单 8.13 pad() 方 法 


Private String pad(String source, String padCchar，int length, 
boolean leftPad) { 
StringBuffer temp = new StringBuffer(); 


if (leftPad) { 
// 左边 填充 
for (int i = 0; i < length; i++) { 
temp .append (padChar); 
} 
temp.append (source); 
} else { 
// 左边 填充 
temp.append (source); 
for (int i = 0; i < length; i++) { 
temp .append (padChar) 7 
} 
和 
return temp.tostring(); 


} 

前 文 已 经 讲述 过 ，OptionHandler 接口 可 以 帮助 在 命令 行 中 设置 选项 。 在 图 形 用 户 界 
中 设置 这 些 选项 ，Weka 使 用 JavaBeans 的 框架 ， 类 使 用 的 每 一 个 参数 都 需要 调用 对 应 的 
setters() 方 法 和 getters() 方 法 。 例 如 ，NaiveBayes 分 类 器 使 用 核 估计 器 参数 ， 需 要 有 对 应 的 
setUseKernelEstimator() 方 法 和 getUseKemelEstimator() 方法 。 还 应 该 有 一 个 
useKernelEstimatorTipText() 方 法 ， 该 方法 返回 一 个 图 形 用 户 界 面 参 数 的 描述 。 前 面 提 到 的 
三 个 方法 分 别 如 程序 清单 8.14、 程 序 清单 8.15 和 程序 清单 8.16 所 示 ， 后 面 直到 程序 清单 
8.22 的 方法 都 基于 同样 的 原理 ， 不 再 袭 述 。 

程序 清单 8.14 所 示 的 useKernelEstimatorTipText() 方 法 返回 使 用 核 评估 器 的 提示 文本 ， 
在 探索 者 和 实验 者 GUI 中 显示 。 

程序 清单 8.14 ”useKernelEstimatorTipText() 方 法 


public String useKernelEstimatorTipText() { 
return "Use a kernel estimator for numeric attributes rather than a " 


+ "normal distribution."7 


} 
程序 清单 8.15 所 示 的 getUseKernelEstimator() 方 法 获取 是 否 使 用 核 评估 器 。 
程序 清单 8.15 getUseKernelEstimator() 
Public boolean getUseKernelEstimator() { 
return m UseKernelEstimator; 
} 
程序 清单 8.16 所 示 的 setUseKemelEstimator() 方 法 设置 是 否 使 用 核 评估 器 。 
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程序 清单 8.16。 setUseKemelEstimator(boolean V) 方 法 
public void setUseKernelEstimator (boolean v) { 
m UseKernelEstimator = V7 


if (v) { 
setUseSupervisedDiscretization (false); 


} 


程序 清单 8.17 所 示 的 useSupervisedDiscretizationTipText() 方 法 返回 使 用 有 监督 离散 化 
的 提示 文本 ， 在 探索 者 和 实验 者 GUI 中 显示 。 


程序 清单 8.17 useSupervisedDiscretizationTipText() 方 法 


public String useSupervisedDiscretizationTipText() { 
return "Use supervised discretization to convert numeric attributes to 
nominal " 
+ "ones."; 
} 
程序 清单 8.18 所 示 的 getUseSupervisedDiscretization() 方 法 获取 是 否 使 用 有 监督 的 离 


散 化 。 
程序 清单 8.18 getUseSupervisedDiscretization() 方 法 
Ppublic boolean getUseSupervisedDiscretization() { 


return m UseDiscretization; 
3 


程序 清单 8.19 所 示 的 setUseSupervisedDiscretization() 方 法 设置 是 否 使 用 有 监督 的 离 
散 化 。 
程序 清单 8.19 setUseSupervisedDiscretization(boolean newblah) 方 法 
public void setUseSupervisedDiscretization (boolean newblah) { 
m UseDiscretization = newblah; 


if (newblah) { 
setUseKernelEstimator (false); 


} 


程序 清单 8.20 所 示 的 displayModelInOldFormatTipText0 方 法 返回 使 用 旧 的 原始 格式 来 
显示 模型 输出 的 提示 文本 ， 在 探索 者 和 实验 者 GUI 中 显示 。 


程序 清单 8.20 ”displayModelInOldFormatTipText() 方 法 


public String displayModelInOldFormatTipText() { 
return "Use old format for model output. The old format is " 
+ "better when there are many class values. The new format " 
+ "is better when there are fewer classes and many attributes."; 


程序 清单 8.21 所 示 的 setDisplayModelInOldFormat() 方 法 设置 是 否 使 用 旧 的 原始 格式 来 
显示 模型 输出 。 
程序 清单 8.21 setDisplayModelInOldFormat(boolean d) 方 法 


public void setDisplayModelInOldFormat (boolean d) { 
m displayModelInOldFormat = d; 
} 


程序 清单 8.22 所 示 的 getDisplayModelInOldFormat() 方 法 获取 是 否 使 用 旧 的 原始 格式 来 
显示 模型 输出 。 
程序 清单 8.22 ”getDisplayModelInOldFormat() 方 法 


Ppublic boolean getDisplayModelInOldFormat() { 
return m displayModelInOldFormat; 
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} 
程序 清单 8.23 所 示 的 getRevision() 方 法 可 选 ， 只 是 简单 返回 一 个 版 本 标识 符 。 
程序 清单 8.23 ”getRevision() 方 法 


Ppublic String getRevision() { 
return RevisionUtils.extract ("$Revision: 8034 $"); 
} 

在 命令 行 中 执行 时 调用 类 的 main 0 方法 ， 这 是 分 类 器 的 主 入 口 方法 ， 如 程序 清单 8.24 
所 示 。 正 如 读者 所 见 ，main0 方 法 的 实现 很 简单 : 调用 父 类 AbstractClassifier 的 
runClassifier0 方 法 ， 使 用 给 定 的 两 个 选项 运行 分 类 器 实例 ， 两 个 选项 为 : 新 建 的 
NaiveBayes 对 象 和 给 定 的 命令 行 选项 。runClassifier0 方 法 告诉 Weka 的 Evaluation 类 使 用 
给 定 的 命令 行 选项 来 评估 提供 的 分 类 器 ， 并 打印 结果 字符 串 。 


程序 清单 8.24 ”main(String[] argv) 方 法 


public static void main(string[] argv) { 
runClassifier(new NaiveBayes(), argv); 


} 


8.2 ”实现 分 类 器 的 约定 


在 实现 Weka 分 类 器 时 ， 有 一 些 必须 遵守 的 约定 。 如 果 不 遵守 这 些 约定 ， 就 会 发 生 比 
较 怪异 的 事情 。 例 如 ，Weka 中 的 评估 模块 可 能 在 评估 时 无 法 正确 计算 分 类 器 的 统计 信 
息 。 为 此 ，Weka 提供 了 一 些 辅 助 类 。 用 户 可 以 使 用 CheckClassifier 类 来 检查 某 个 分 类 器 
的 基本 行为 ， 这 是 一 个 检查 分 类 器 的 能 力 (capabilities) 以 及 发 现 问题 的 Weka 类 。 如 果 利 用 
Weka 库 实现 新 的 分 类 器 ， 强 烈 建议 运行 CheckClassifier 类 进行 检查 ， 以 确保 新 分 类 器 能 
够 正确 运行 和 健壮 性 。 虽 然 通 过 所 有 测试 并 不 意味 着 分 类 器 中 不 存在 错误 ， 但 是 ， 它 肯定 
有 助 于 发 现 一 些 常见 的 错误 。 
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第 一 个 约定 是 : 每 次 调用 分 类 器 的 buildClassifier0 方 法 时 ， 分 类 器 必须 重 置 (复位 ) 模 
型 。CheckClassifier 类 进行 这 方面 的 测试 ， 以 确保 满足 这 个 要 求 。 当 调用 buildClassifier() 
方法 对 数据 集 构建 模型 时 ， 不 管 分 类 器 先前 已 应 用 到 相同 数据 集 或 不 同 数据 集 多 少 次 ， 必 
须 始终 获得 相同 的 结果 。 不 过 ，buildClassifier0 方 法 不 能 复位 对 应 于 方案 特定 选项 的 实例 
变量 ， 因 为 这 些 设置 在 多 次 调用 buildClassifier() 方 法 期 间 必须 保持 不 变 。 此 外 ， 调 用 
buildClassifier() 方 法 不 能 改变 输入 数据 。 

下 面 讲述 另外 两 个 约定 。 约 定之 一 是 ， 当 某 个 分 类 器 不 能 做 出 预测 时 ， 其 
classifyInstance() 方 法 必须 返回 Instance.missingValue()， 且 distributionForInstance() 方 法 必须 
返回 所 有 类 别 的 概率 为 零 。 上 一 节 展示 的 NaiveBayes 分 类 器 实现 就 做 到 了 这 一 点 。 另 一 个 
约定 是 ， 如 果 使 用 分 类 器 对 数值 类 别 进行 预测 ，classifyInstance() 方 法 返回 分 类 器 预测 的 数 
值 。 然 而 ， 有 些 分 类 器 能 够 预测 标 称 型 类 别 和 类 别 的 概率 ， 以 及 数值 型 类 别 的 值 ， 如 
weka.classifiers.lazy.IBk。 实 现 distributionForInstance() 方 法 的 分 类 器 ， 如 果 类 别 是 数值 型 ， 
则 返回 一 个 大 小 为 1 的 数组 ， 它 唯一 的 元 素 包 含 了 预测 的 数值 。 

最 后 一 个 约定 并 不 是 绝对 必需 的 ， 但 仍然 有 用 。 每 一 个 分 类 器 应 该 实现 toString() 方 
法 ， 以 输出 自身 的 文字 描述 。 


8.2.1 Capabilities 


最 后 看 一 下 Weka 的 Capabilities( 能 力 ) 思 路 。 如 前 所 述 ，Weka 的 能 力 使 学 习 方 案 可 以 
表示 它 能 够 处 理 哪些 数据 特征 。 当 用 户 单 击 Capabilities 按钮 ， 在 对 象 编辑 器 中 显示 能 力 信 
息 。 在 探索 者 界面 中 ， 在 当前 数据 与 分 类 器 声称 的 能 力 不 匹 配 时 ，Weka 能 力 能 够 帮助 禁 
用 不 适合 的 学 习 方案 ， 使 用 户 不 至 于 错 选 。 

为 了 减轻 那些 Weka 新 手 的 编程 负担 ， 学 习 方案 的 主要 类 型 的 超 类 包括 : 
AbstractClassifier、AbstractClusterer 和 AbstractAssociator， 在 默认 情况 下 都 禁用 所 有 的 能 
力 约束 。 这 使 得 程序 员 可 以 专注 于 学 习 方案 功能 实现 的 主要 任务 ， 而 不 必 分 心 于 处 理 
Weka 能 力 。 然 而 ， 一 旦 学 习 方案 能 够 正常 工作 且 效 果 满 意 ， 程 序 员 应 该 重 写 超 类 的 
getCapabilities() 方 法 ， 指 定 学 习 方案 处 理 各 种 数据 特征 的 能 力 约 束 ， 以 反映 该 方案 的 能 
力 。getCapabilities() 方 法 返回 一 个 weka.core.Capabilities 对 象 ， 封 装 了 该 方案 能 处 理 的 数据 

如 程序 清单 84 所 示 ， 分 类 器 的 getCapabilities() 方 法 首先 通过 调用 
super.getCapabilities() 方 法 获取 Capabilities 对 象 ， 返 回 的 是 没有 任何 约束 的 Capabilities 对 
象 。 最 佳 的 处 理 方法 是 先 对 Capabilities 对 象 调用 disableAll0 方 法 ， 然 后 再 启用 本 学 习 方案 

E 够 处 理 的 相关 特征 。 

上 一 节 的 NaiveBayes 分 类 器 就 是 这 样 做 的 ， 启 用 处 理 标 称 属性 的 能 力 、 标 称 类 别 属性 
的 能 力 、 缺 失 类 别 值 的 能 力 。 它 还 指定 所 需 的 最 少 为 零 的 训练 实例 。 在 大 多 数 情 况 下 ， 单 
个 的 能 力 可 通过 调用 Capabilities 对 象 的 enable() 方 法 或 disable() 方 法 来 开启 或 关闭 。 这 些 
方法 采用 定义 在 表 8. 1 中 的 枚 举 常量 作为 参数 ， 这 些 枚 举 常量 是 Capabilities 类 的 一 部 分 。 


表 8.1 Enum Capabilities.Capability( 枚 举 常量 概要 ) 


枚 举 常量 功 能 
BINARY _ ATTRIBUTES 能 处 理 二 元 属性 
BINARY CLASS 能 处 理 二 元 类 别 
DATE _ ATTRIBUTES 能 处 理 日 期 属性 
DATE CLASS 能 处 理 日 期 类 别 


EMPTY NOMINAL _ ATTRIBUTES 能 处 理 空 标 称 属性 


EMPTY NOMINAL CLASS 能 处 理 空 标 称 类 别 
MISSING CLASS VALUES 能 处 理 类 别 属性 的 缺失 值 
MISSING VALUES 能 处 理 属 性 中 的 缺失 值 
NO_CLASS 能 处 理 没有 类 别 属 性 的 数据 ， 如 聚 类 器 
NOMINAL ATTRIBUTES 能 处 理 标 称 属性 
NOMINAL CLASS 能 处 理 标 称 类 别 
NUMERIC _ ATTRIBUTES 能 处 理 数 值 属 性 
NUMERIC_ CLASS 能 处 理 数 值 类 别 

ONLY_ MULTIINSTANCE 能 处 理 多 实例 数据 
RELATIONAL _ ATTRIBUTES 能 处 理 关 系 属 性 
RELATIONAL CLASS 能 处 理 关 系 类 别 

STRING _ ATTRIBUTES 能 处 理 字符 串 属性 
STRING_CLASS 能 处 理 字符 串 类 别 
UNARY ATTRIBUTES 能 处 理 一 元 属性 
UNARY CLASS 能 处 理 一 元 类 别 


Ase 课 后 强化 练习 se 司 


8.1 为 什么 要 分 析 Weka 学 习 方 案 的 源 代 码 ? 

8.2 简 述 NaiveBayes 分 类 器 算法 。 

8.3 分 类 器 必须 实现 哪 两 个 方法 之 一 或 全 部 ? 

8.4 使 用 CheckClassifier 类 对 新 编写 的 分 类 器 进行 检查 后 ， 没 发 现 错误 就 是 没有 错 
误 。 这 种 说 法 正确 吗 ? 为 什么 ? 

8.5 每 次 调用 分 类 器 的 buildClassifier0 方 法 时 ， 分 类 器 必须 完成 什么 工作 ? 

8.6 ” 当 某 个 分 类 器 不 能 做 出 预测 时 ， 其 classifyInstance() 方 法 必须 返回 什么 对 象 ? 

8.7 Weka 的 Capabilities 有 什么 用 途 ? 
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附录 A 中 英文 木 语 对 照 


0R (0-rule，ZeroR): 0 规则 

1R (1-mle，OneR): 1 规则 

accuracy: 准确 率 

ARFF(Attribute-Relation File Format): 属性 -关系 文件 格式 

aggregation: 聚集 

ANN(Artificial Neural Network): 人 工 神经 网 络 

association analysis: 关联 分 析 

association rule: 关联 规则 

attribute: 属性 

attribute selection: 属性 选择 

AUC(Area Under the Curve): ROC 曲线 下 方 的 面积 

AUPRC(Area Under the Precision-Recall Curve): 查 全 率 - 查 准 率 曲 线 下 面积 
Bagging: 装 袋 

Bayes: 贝 叶 斯 

Base Classifier: 基 分 类 器 

binarization: 二 元 化 

BIF(Bayesian Network Interchange Format): 贝 叶 斯 网 络 可 交换 格式 

bins: 箱 数 

Boosting: 提升 

BP(Back Propagation): 反 向 传播 

Cardinality: 重 数 

CART(Classification And Regression Tree): 分 类 与 回归 树 

categorical: 分 类 的 

confusion matrix: 混淆 矩阵 

coverage: 覆盖 率 

CPD(Conditional Probability Distribution): 条 件 概率 分 布 

CPT(Conditional Probability Table): 条 件 概率 表 

CSV(Comma-Separated Value): 逗号 分 隔 值 

CV(Cross Validation): 交叉 验证 

class: 类 (在 面向 对 象 的 上 下 文中 ) 

class: 类 别 (在 机 器 学 习 的 上 下 文中 ) 

classification: 分 类 

cliques: 团 
cluster: 秘 
clustering: 聚 类 
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column: 列 

converters: 转换 器 

coverage: 履 盖 率 

DAG (Directed Acyclic Graphb): 有 向 无 环 
dataset: 数据 集 

decision rules: 决策 规则 

decision trees: 决策 树 

dimension reduction: 维度 归 约 
discretization: 离散 化 

eager learner: 积极 学 习 器 
embedded: 钳 入 

Ensemble Learning: 集成 学 习 
epochs: 迭代 趟 数 

equal depth: 等 深 

equal frequency: 等 频 

equal width: 等 宽 

Experimenter: 实验 者 

Explorer: 探索 者 

extreme values: 极端 值 

evaluation: 评估 

field: 字段 

filter: 过 滤器 

F-Measure: 下 度量 

Frequent Itemset: 频繁 项 集 
FN(False Negative): 假 阴 性 
FP(False Positive): 假 阳性 
GC(Garbage Collector): 垃圾 回收 器 
Genetic Search: 遗传 搜索 

GUI: 图 形 用 户 界面 

HillClimbing: 疏 山 法 
IANA(Internet Assigned Numbers Authority): 互联 网 地 址 指派 机 构 
instance: 实例 

instance-based learning: 基于 实例 的 学 习 
instances: 实例 集 

interquartile: 四 分 位 数 

interval: 区 间 

item sets: 项 集 

JT(Junction Tree): 联合 树 

kernel: 核 


K-Means: K 均值 算法 

kNN(k-Nearest Neighbours): k 最 近邻 算法 
Knowledge Flow: 知识 流 

lazy leamer: 消极 学 习 器 

leaming rate: 学 习 速 率 

linear: 线性 

LOO(Leave-One-Out): 留 一 法 

LWR(Locally Weighted Regression): 局 部 加 权 回 归 
MDL(Minimum Description Length): 最 小 描述 长 度 


measures: 度量 
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momentum: 动量 

Multilayer Perceptron: 多 层 感知 器 
NB(Naive Bayes): 朴素 贝 叶 斯 
Nearest Neighbor(NN): 最 近邻 
Neural Network: 神经 网 络 
normalization: 规范 化 

nominal: 标 称 

numeric: 数值 的 

nonlinear: 非 线性 

ordinal: 序数 

outliers: 离 群 值 

Package Manager: 包 管理 器 

PCA: 主 成 分 分 析 

perspectives: 视角 

Precision: 查 准 率 

qualitative: 定性 的 

quantitative: 定量 的 

Random Forest: 随机 森林 

ratio: 比率 

Recall: 查 全 率 ， 召 回 率 
regression: 回归 
RepeatedHillClimber: 重复 息 山 法 
ROC(Receiver Operating Characteristic): 接收 者 操作 特征 


row: 行 
sample: 样本 
sampling: 抽样 


scatterplot: 散 点 图 
SGD(Stochastic Gradient Descent): 随机 梯度 下 降 
Significance: 显著 性 
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Simple CLI: 简单 命令 行 

Simulated Annealing: 模拟 退火 

SMO(Sequential Minimal Optimization): 序列 最 小 优化 
split: 拆 分 ， 划 分 ， 分 割 

standardization: 标准 化 

stratified sampling: 分 层 抽 样 

supervised: 有 监督 的 

SVM(Support Vector Machine): 支持 向 量 机 

Tabu Search: 禁忌 搜索 

TAN(Tree-Augmented Naive Bayes): 树 增强 朴素 贝 叶 斯 
TF(Term Frequency): 词 频 

TF-IDF(Term Frequency-Inverse Document Frequency): 词 逆向 文档 频率 
threshold: 闪 值 

tree: 树 

TN(Tme Negative): 真 阴性 

TP(True Positive): 真 阳性 

unsupervised: 无 监督 的 

variable transformation: 变量 变换 

visualization: 可 视 化 

weight: 权重 

wrapper: 包装 


附录 B Weka 算法 介绍 
过 滤器 算法 介绍 


以 下 按 类 型 分 别 列 出 Weka 主要 过 滤器 的 使 用 方法 ， 过 滤器 按 英 文 名 称 的 字典 顺序 列 


出 ， 供 用 户 在 使 用 时 快速 参考 。 


杂项 过 滤器 
以 下 两 个 过 滤器 比较 特殊 ， 它 们 既 不 属于 无 监督 过 滤器 ， 也 不 属于 有 监督 过 滤器 。 
1) AllFilter 


AllFilter 过 滤器 是 一 个 实例 过 滤器 ， 它 让 所 有 实例 通过 过 滤器 但 不 进行 任何 修改 。 主 


要 用 于 测试 目的 。 


该 过 滤器 不 需要 设置 参数 。 
2) MultiFilter 
MultiFilter 过 滤器 可 以 连续 实施 多 个 过 滤器 。 如 果 提 供 的 所 有 过 滤器 都 实现 


StreamableFilter 接口 ， 该 过 滤器 也 支持 流 式 实例 的 过 滤 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 
。 debug( 调 试 );， 打开 调试 信息 的 输出 。 

。 Filters( 过 滤器 ): 要 使 用 的 一 个 或 多 个 基 过 滤器 。 

无 监督 属性 过 滤器 

1) Add 

Add 过 滤器 在 给 定 的 位 置 插入 一 个 属性 ， 对 于 所 有 实例 其 值 都 标记 为 缺失 。 使 用 通用 


对 象 编辑 器 来 指定 属性 的 名 称 ， 以 及 标 称 属性 的 可 能 值 ， 该 属性 名 称 会 出 现在 属性 列表 


中 ， 日 期 属性 还 可 以 指定 日 期 的 格式 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 

e ”attributeIndex( 属 性 索引 ): 新 属性 的 插入 位 置 ， 从 1 开始 计数 ， 第 一 个 属性 还 可 以 
使 用 first 指定 ， 最 后 一 个 属性 还 可 以 使 用 last 指定 。 

attributeName( 属 性 名 称 ): 设置 新 属性 的 名 称 。 

attributeType( 属 性 类 型 ): 定义 要 生成 的 新 属性 的 类 型 。 

dateFormat( 日 期 格式 ): 日 期 值 的 格式 ， 参 见 ISO-8601 标准 。 
nominalLabels( 标 称 型 标签 ): 值 标签 的 列表 ， 只 用 于 创建 标 称 属性 。 该 列表 必须 
用 逗号 分 隔 ， 例 如 : red，green，blue。 如 果 列 表 为 空 ， 则 创建 数字 型 属性 。 

2) AddCluster 

添加 一 个 表示 簇 的 新 标 称 型 属性 ， 采 用 给 定 聚 类 算法 将 簇 分 配给 每 个 实例 。 
AddCluster 过 滤器 先 将 一 种 聚 类 算法 应 用 于 数据 ， 然 后 再 进行 过 滤 。 用 户 通过 对 象 编 


辑 器 选择 聚 类 算法 ， 其 设置 方式 与 过 滤器 一 样 。AddCluster 对 象 编辑 器 通过 自己 界面 的 
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Choose 按钮 来 选择 聚 类 器 ， 用 户 单 击 按钮 右边 方 框 开 启 另 外 一 个 对 象 编辑 器 窗口 ， 在 新 窗 
口中 设置 聚 类 器 的 参数 ， 必 须 填写 完整 后 才能 返回 AddCluster 对 象 编辑 器 。 一 旦 用 户 选 定 
一 个 聚 类 器 ，AddCluster 会 为 每 个 实例 指定 一 个 簇 号 ， 作 为 实例 的 新 属性 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
eclusterer( 聚 类 器 ): 指定 聚 类 算法 的 聚 类 器 。 支 持 的 聚 类 器 包括 : Cobweb、EM、 
FarthestFirst 、 FilteredClusterer 、 HierarchicalClusterer 、 MakeDensityBaseClusterer 
和 SimpleMeans 。 


@ ”serializedClustererFile (序列 化 聚 类 器 文件 ): 一 个 文件 ， 其 中 包含 序列 化 模型 的 内 


建 聚 类 器 。 

e ”ignoredAttributeIndices( 忽 略 的 属性 索引 ): 聚 类 器 忽略 的 属性 范围 。 例 如 : first- 
3,5,9-last。 

3) AddExpression 


AddExpression 过 滤器 通过 将 一 个 数学 函数 应 用 于 数值 型 属性 而 生成 一 个 新 属性 。 表 达 
式 可 包括 属性 索引 和 常量 ， 四 则 运算 符 +、-、*、/ 和 ^， 函 数 log、abs、cos、exp、sqrt、 
floor、ceil、rint、tan、sin 以 及 左右 括号 。 属 性 可 通过 索引 加 前 级 a 确定 ， 例 如 a7 指 第 七 
个 属性 。 表 达 式 范例 如 下 : 


al^2*a5/log (a7*4.0) 


通用 对 象 编辑 器 界面 说 明 如 下 。 
e ”debug( 调 试 ): 设置 调试 模式 。 如 果 为 真 ， 则 新 属性 将 所 提供 表达 式 蔡 换 为 后 级 解 
析 式 。 

e ”expression( 表 达 式 ): 设置 要 应 用 的 数学 表达 式 。 例 如 : al^2*a5/log(a7*4.0)。 

e name( 名 称 ): 设置 新 属性 的 名 称 。 

4) AddID 

AddID 过 滤器 在 属性 列表 中 用 户 指 定 索引 位 置 插入 一 个 数字 标识 符 属 性 ， 为 数据 集 的 
每 个 实例 分 配 一 个 唯一 的 也 。 数 字 标 识 符 属性 在 追踪 单个 实例 非常 有 用 ， 尤 其 是 在 使 用 不 
同方 式 对 数据 集 进 行 处 理 以 后 ， 例 如 ， 由 其 他 过 滤器 进行 转换 或 经 过 随机 排序 后 的 情形 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e attributeName( 属 性 名 称 ): 设置 新 属性 的 名 称 。 

e ”IDIndex(ID 索引 ): 新 属性 将 插入 的 位 置 ， 从 1 开始 计数 。 支 持 first 和 last 作为 有 效 

索引 。 

5) AddNoise 

AddNoise 过 滤器 用 于 更 改 给 定 的 属性 值 的 百分比 。 属 性 必须 是 标 称 型 的 ， 缺 失 值 可 以 
视 为 固有 值 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 
attributeIndex( 属 性 索引 ): 要 改变 的 属性 索引 。 
useMissing( 使 用 缺失 ): 如 果 要 使 用 缺失 值 ， 则 置 位 本 标识 。 
percent( 百 分 比 ): 数据 引入 噪声 的 百分比 。 
randomSeed( 随 机 种 子 ): 随机 数 种 子 。 


6) AddUserFields 
AddUserFields 过 滤器 用 于 增加 用 户 指定 类 型 和 常数 值 的 新 属性 。 可 以 创建 的 属性 类 型 
有 : 数值 型 、 标 称 型 、 字 符 串 型 和 日 期 型 。 可 以 使 用 环境 变量 来 设置 属性 名 称 和 属性 值 。 
如 果 是 日 期 属性 ， 也 可 以 指定 一 个 格式 化 字符 串 对 所 提供 的 日 期 值 进行 解析 。 另 外 ， 可 以 
通过 提供 特殊 字符 串 “now” 作 为 日 期 属性 值 ， 指 定 当前 时 间 戳 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
attributeSpecs (属性 规格 ): 创建 新 属性 的 规格 说 明 ， 包 括 Attribute name( 属 性 名 称 )、 
Attribute type( 属 性 类 型 )、Date format( 日 期 格式 ) 和 Attribute value( 属 性 值 )。 
7) AddValues 
如 果 属 性 标签 缺失 ， 可 以 使 用 AddValues 过 滤器 为 该 属性 添加 给 定 标签 列表 。 标 签 能 
以 升序 的 方式 进行 排序 。 如 果 没 有 提供 标签 ， 则 只 能 选择 排序 功能 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e attributeIndex( 属 性 索引 ): 设置 要 处 理 的 属性 。 此 属性 必须 是 标 称 型 ，first 和 last 
都 是 有 效 值 。 
e labels( 标 签 );， 以 逗号 分 隔 的 用 于 添加 的 标签 列表 。 
e sort( 排 序 ): 是 否 将 标签 按 字 母 顺序 排序 。 
8) Center 
Center 过 滤器 将 给 定 的 数据 集 的 所 有 数值 属性 的 中 心 设置 为 零 均 值 ， 不 包括 类 别 属性 。 
通用 对 象 编 辑 器 界面 说 明 如 下 。 
ignoreClass( 忽 略 类 别 属性 ): 布尔 型 ， 默 认为 False( 假 )。 如 果 设 置 为 True( 真 )， 则 在 过 
滤器 应 用 之 前 ， 和 暂时 取消 类 别 索引 的 设置 ， 即 包括 类 别 属性 的 所 有 数值 属性 都 参与 中 心 值 
平移 。 
9) ChangeDateFormat 
ChangeDateFormat 过 滤器 用 于 更 改 日 期 属性 使 用 的 日 期 格式 。 该 过 滤器 最 适用 于 将 日 
期 属性 转换 为 精度 差 一 些 的 格式 。 例 如 ， 从 一 个 绝对 日 期 转换 为 年 内 的 一 天 ， 等 等 。 改 变 
格式 字符 串 ， 也 相应 改变 了 日 期 值 ， 能 为 新 格式 所 解析 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e attributeIndex( 属 性 索引 ): 设置 要 处 理 的 属性 。 此 属性 必须 是 日 期 类 型 ，first 和 
last 均 为 有 效 值 。 
edateFormat( 日 期 格式 ): 要 改变 的 日 期 格式 。 应 该 为 Java 的 SimpleDateFormat 类 
能 够 解析 的 格式 。 
10) ClassAssigner 
ClassAssigner 过 滤器 能 够 设置 或 取消 设置 类 别 索引 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e@ classIndex( 类 别 索 引 ): 类 别 属性 的 索引 ， 从 1 开始 计数 。first 和 last 也 是 有 效 
值 ， 如 果 为 “0”， 则 清除 类 别 索引 。 
edebug( 调 试 ): 打开 调试 信息 的 输出 。 
11) ClusterMembership 
ClusterMembership 过 滤器 应 用 指定 的 基于 密度 的 聚 类 器 生成 饼 素 属 度 值 ， 以 形成 新 的 
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属性 。 过 滤 后 的 实例 由 徐 隶 属 度 值 加 上 类 别 属 性 (如 果 在 输入 数据 中 进行 过 设置 ) 构 成 。 如 


果 设 置 了 ( 标 称 值 的 ) 类 别 属性 ， 聚 类 器 将 针对 每 个 类 别 单独 运行 。 否 则 聚 类 操作 将 忽略 设 
置 的 类 别 属 性 以 及 用 户 指定 要 忽略 的 属性 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 

e densityBasedClusterer( 基 于 密度 的 聚 类 器 ): 设置 用 于 生成 隶属 度 值 的 实例 的 聚 类 
器 。 支 持 的 聚 类 器 有 : EM 和 MakeDensityBasedClusterer。 

e@ ”ignoredAttributeIndices( 忽 略 属性 索引 ): 希望 聚 类 器 忽略 的 属性 范围 。 例 如 : first- 
3,5,9-last。 

12) Copy 

Copy 过 滤器 复制 一 定 范围 内 的 现 有 属性 ， 常 用 于 在 实验 过 程 中 使 用 过 滤器 对 属性 值 进 


行 改写 时 ， 保 留 一 个 副本 。 多 个 属性 可 以 用 一 个 表达 式 一 起 复制 ， 例 如 ， 表 达 式 “1-3” 表 
示 前 三 个 属性 ， 表 达 式 “first-3,5.9-last” 表 示 第 1，2，3，5，9，10，11，12，… 个 属性 。 
可 以 使 用 反选 ， 以 选中 那些 除了 指定 属性 以 外 的 所 有 属性 。 


量 、 


通用 对 象 编辑 器 界面 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，fast 
和 last 均 为 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

@ invertSelection( 反 选 ): 设置 选择 与 反 向 选择 的 动作 。 如 果 设 置 为 False， 只 复制 那 
些 指定 的 属性 ;如 果 设 置 为 True， 只 复制 那些 未 指定 的 属性 。 

13) Discretize 

Discretize 过 滤器 用 于 离散 化 ， 即 将 数值 属性 转换 为 标 称 属 性 ， 可 以 指定 属性 、 分 箱 数 

是 否 优化 分 箱 的 数量 、 输 出 二 元 化 属性 、 使 用 等 宽 (默认 值 ) 方 式 还 是 等 频 方式 进行 分 


箱 处 理 、 是 否 忽略 类 别 属性 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隅 ，fast 

和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

bins( 箱 数 ): 分 箱 的 数目 。 

desiredWeightOfInstancesPerInterval( 每 一 间隔 实例 期 望 权重 ): 等 频 分 箱 时 ， 设 置 

每 一 个 间隔 内 实例 的 期 望 权重 。 

e findNumBins( 查 找 箱 数 ): 使 用 留 一 法 (leave-one-out) 策 略 优 化 等 宽 分 箱 。 不 能 用 于 

等 频 分 箱 。 

ignoreClass( 忽 略 类 别 )， 在 设置 应 用 过 滤器 之 前 ， 暂 时 取消 类 别 索引 。 

e@ invertSelection( 反 选 ): 设置 选择 属性 模式 。 如 果 设 置 为 False， 只 离散 化 选 定 范围 

内 的 (数值 ) 属 性 ， 如 果 设 置 为 True， 只 离散 化 没有 选 定 的 属性 。 

makeBinary( 二 元 化 ): 使 结果 属性 二 元 化 。 

euseBinNumbers( 使 用 箱 号 码 ): 布尔 型 ， 指 定 是 否 使 用 箱 号 码 (如 BXofY)， 而 不 是 
离散 化 的 属性 范围 。 

e@ ”useEqualFrequency( 使 用 等 频 ): 布尔 型 ， 如 果 设 置 为 True， 则 使 用 等 频 分 箱 ， 而 
不 使 用 等 宽 分 箱 。 


14) FirstOrder 
FirstOrder 过 滤器 对 一 定 范围 的 数值 属性 应 用 一 阶 差分 算 子 。 算 法 为 ， 将 NN 个 数值 型 
属性 替换 为 N-1 个 数值 型 属性 ， 其 值 是 原来 实例 中 连续 属性 值 之 差 ， 即 新 属性 值 等 于 后 一 
个 属性 值 减 去 前 一 个 属性 值 。 例 如 : 
原始 属性 值 : 
L021 03 
新 的 属性 值 : 
0.1,0.1, -0.2,02 
按 数 字 顺 序 使 用 属性 范围 。 即 如 果 指 定 的 范围 是 “7-11,3-5”， 也 按照 
“3,4,5,7,8,9,10,11” 排 序 的 属性 进行 使 用 ， 而 不 按照 “7,8,9,10,11,3,4,5” 顺 序 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，fast 和 
last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
15) InterquartileRange 
InterquartileRange 过 滤器 添加 新 属性 ， 以 指示 实例 的 值 是 否 为 离 群 值 或 极端 值 。 离 群 
值 和 极端 值 定义 为 基于 属性 值 的 第 25 和 第 75 个 四 分 位 数 之 间 的 差 。 如 果 用 户 指定 的 极端 
值 系数 和 四 分 位 距 的 乘积 值 高 于 第 75 个 四 分 位 数 ， 或 低 于 第 25 个 四 分 位 数 ， 该 值 就 标记 
为 极端 值 。 也 有 超出 上 述 范 围 标记 为 离 群 值 但 不 是 极端 值 的 情况 。 可 以 设置 该 过 滤器 ， 如 
果 某 个 实例 的 任意 属性 值 认为 是 离 群 值 或 极端 值 ， 或 产生 离 群 极端 的 指标 ， 可 以 标记 该 实 
例 为 离 群 值 或 极端 值 。 也 可 以 将 所 有 极端 值 标记 为 离 群 值 ， 并 输出 与 中 位 数 偏离 多 少 个 四 
分 位 数 的 属性 。 该 过 滤器 忽略 类 别 属性 。 
假定 使 用 如 下 符号 : 
Q1 =25% 四 分 位 数 
Q3 =75% 四 分 位 数 
IQR = 四 分 位 距 ，Q1 和 Q3 之 差 
OF = 离 群 值 因 子 
EVF = 极端 值 因 子 
则 离 群 值 和 极端 值 可 以 采用 以 下 公式 求 出 。 
离 群 值 : 
Q3 + OF*IQR < x <= Q3 + EVF*IQR 


或 者 
Q1 -EVF*IQR <=x < Q]1 -OF*IQR 
极端 值 : 
xX> Q3 +EVF*IQR 
或 者 
<OQLl=EVEIOR 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e ”attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 去 号 分 隔 ，fast 
和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
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debug( 调 试 ): 打开 调试 信息 的 输出 。 

detectionPerAttribute( 检 测 每 个 属性 ): 每 个 数值 属性 都 生成 “ 离 群 值 / 极端 值 ” 属 
性 对 ， 而 不 是 将 全 部 数值 属性 生成 一 个 单一 数值 属性 对 。 
extremeValuesAsOnutliers( 极 端 值 作为 离 群 值 ): 是 否 将 极端 值 标记 为 离 群 值 。 
extremeValuesFactor( 极 端 值 因 子 ): 用 于 检测 极端 值 阐 值 的 因子 。 
outlierFactor( 离 群 值 因 子 ): 用 于 检测 离 群 值 阐 值 的 因子 。 
outputOffsetMultiplier( 输 出 偏 移 乘 数 )， 生 成 一 个 额外 属性 “Offset”， 其 值 为 中 位 
数 与 乘 数 的 函数 值 ， 公 式 为 : value = median + "multiplier' * IQR， 即 值 = 中 位 数 
+“ 乘 数 ” * IJQR 。 


16) KermelFilter 

KermnelFilter 过 滤器 从 数据 集 生成 核 矩 阵 。 对 于 源 数据 集中 的 每 一 个 实例 ， 新 数据 集 包 
含 一 个 属性 和 一 个 实例 。 新 数据 集 的 特定 实例 的 属性 值 保存 评估 核 函 数 结果 ， 在 原来 实例 
对 应 于 每 个 属性 。 

默认 情况 下 ， 数 据 预 处 理 采 用 Center 过 滤器 ， 用 户 也 可 以 选择 任何 过 滤器 。 注 意 : 用 
户 必须 小 心 ， 以 免 过 滤器 无 意 中 改变 类 别 属性 。 可 使 用 weka filters.AllFilter 过 滤器 来 禁用 


预 处 理 。 
通用 


对 象 编辑 器 界面 说 明 如 下 。 

checksTurmedO 人 (关闭 检查 ): 打开 耗 时 检查 ， 请 谨慎 使 用 。 

debug( 调 试 ): 打开 调试 信息 的 输出 。 

initFile( 初 始 化 文件 ): 用 于 过 滤器 初始 化 的 数据 集 。 
initFileClassIndex( 类 别 索引 初始 化 文件 ): 数据 集 的 分 类 索引 ， 用 于 过 滤器 的 初始 
化 。fast 和 last 都 是 有 效 值 。 

kernel ( 核 ): 使 用 的 核 。 支 持 的 核算 法 有 : NormalizedPolyKernel、PolyKernel、 
PrecomputedKernelMatrixKernel、Puk、 RBFKemel 和 StringKernel。 
kernelFactorExpression( 核 因子 表达 式 ): 核 因 子 ， 使 用 A 表示 属性 索引 ，N 表示 
实例 索引 。 

preprocessing( 预 处 理 ): 设置 用 于 预 处 理 的 过 滤器 ， 如 果 没 有 预 处 理 ， 则 使 用 
AllFilter 过 滤器 。 支 持 Weka 实现 的 预 处 理 算法 。 


17) MakeIndicator 

MakeIndicator 过 滤器 将 标 称 属性 更 换 为 二 元 属性 ， 并 创建 为 一 个 新 数据 集 。 在 新 数据 
集中 ， 值 1 分 配给 值 为 特定 范围 内 的 实例 属性 ， 值 0 分 配给 其 他 实例 。 默 认 将 布尔 型 属性 
编码 为 数值 型 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

attributeIndex( 属 性 索引 ): 设置 应 该 蔡 换 哪些 属性 的 指示 器 。 这 些 属性 必须 是 标 称 
型 。 

numeric( 是 否 数值 ): 确定 输出 指示 器 属性 是 否 为 数值 型 。 如 果 设 置 为 False， 输 出 
属性 将 是 标 称 型 。 

valueIndices( 值 索引 ): 指定 要 操作 的 标 称 值 范围 。 属 性 索引 列表 采用 逗号 分 隔 ， 
编号 从 1 开始 计数 。first 和 last 均 为 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : 


first-3,5,6-10,last。 

18) MathExpression 

MathExpression 过 滤器 根据 给 定 的 表达 式 修改 数值 属性 。 该 过 滤器 与 AddExpression 

类 似 ， 但 它 只 是 在 原 地 修改 现 有 属性 ， 而 不 是 创建 新 属性 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ ”expression( 表 达 式 ): 指定 应 用 的 表达 式 。 字 母 “A” 指 要 处 理 的 属性 值 。MIN、 
MAX、MEAN、SD 分 别 指正 在 处 理 的 属性 的 最 小 值 、 最 大 值 、 平 均值 和 标准 偏 
差 。 其 他 属性 值 ( 仅 限 数值 型 ) 可 通过 的 变量 “Al1，A2，A3，...” 进 行 访问 。 
支持 的 操作 符 有 : +、-、*、/、pow、log、abs、cos、exp、sqrt、tan、sin、ceil、 
foor 、rnt、(、)、A、MEAN 、MAX 、MIN 、SD 、COUNT 、SUM 、 
SUMSQUARED 、ifelse。 
例如 : pow(A,6)/(MEAN+MAX)*ifelse(A<0.0,sqrt(A))+ifelse(![A>9 && A<15]) 
ignoreClass( 忽 略 类 别 ): 在 应 用 过 滤器 之 前 ， 将 暂时 取消 设置 类 别 索引 。 
ignoreRange( 忽 略 范围 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 采用 逗号 分 隔 ， 
first 和 last 均 为 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

e@ ”invertSelection( 反 选 ); 设置 选择 与 反 向 选择 的 动作 。 如 果 设 置 为 True， 只 修改 指 
定 的 属性 ;如 果 设 置 为 False， 指 定 的 属性 将 不 会 被 修改 。 

19) MergeManyValues 

MergeManyValues 过 滤器 将 多 个 标 称 型 属性 合并 为 一 个 值 。 

通用 对 象 编 辑 器 界面 说 明 如 下 。 

e attributeIndex( 属 性 索引 ): 设置 处 理 的 属性 。 此 属性 必须 是 标 称 型 ，first 和 last 都 
是 有 效 值 。 

e mergeValueRange( 合 并 值 范围 ); 要 进行 合并 的 值 的 范围 。 

。 ”label( 标 签 ): 合并 后 值 的 新 标签 。 

20) MergeTwoValues 

MergeTwoValues 过 滤器 将 标 称 型 属性 的 两 个 值 合 并 为 一 个 值 ， 需 要 指定 要 合并 的 两 

个 值 的 索引 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 
。 attributeIndex( 属 性 索引 ): 设置 处 理 的 属性 。 此 属性 必须 是 标 称 型 ，first 和 last 都 
是 有 效 值 。 


efirstValueIndex( 第 一 个 值 索 引 ): 设置 要 合并 的 第 一 个 值 ，first 和 last 都 是 有 效 值 。 

e@ ”secondValueIndex( 第 二 个 值 索引 ): 设置 要 合并 的 第 二 个 值 ，first 和 last 都 是 有 效 值 。 

21) NominalToBinary 

NominalToBinary 过 滤器 将 全 部 标 称 属性 转换 为 二 元 的 数值 属性 。 如 果 类 别 属 性 是 标 
称 型 ， 将 使 用 每 个 值 对 应 一 个 属性 的 方法 ， 即 具有 个 值 的 属性 将 转换 为 个 二 元 属性 ; 
如 果 不 给 定 参数 “-A”， 二 元 属性 将 仍然 保持 二 元 ， 如 果 类 别 属性 是 数值 型 ， 用 户 可 能 想 
使 用 此 过 滤器 的 有 监督 版 本 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e ”attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 去 号 分 隔 ，fast 
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和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3.5.6-10,last。 
binaryAttributesNominal (二 元 属性 为 标 称 型 ): 布尔 型 ， 指 示 结 果 二 元 属性 是 否 
为 标 称 型 。 

invertSelection( 反 选 ): 布尔 型 ， 设 置 属性 选择 模式 。 如 果 为 False， 只 有 选 定 范围 
内 的 数值 属性 将 进行 离散 化 ， 如果 为 True， 只 有 没有 选 定 的 属性 将 离散 化 。 
transformAllValues( 转 换 全 部 值 ): 布尔 型 ， 是 否 全 部 标 称 值 都 转换 为 新 属性 ， 包 
括 超过 2 种 标签 的 值 。 


22) NominalToString 
NominalToString 过 滤器 将 标 称 属性 转换 成 字符 串 属 性 ， 即 将 指定 数量 的 标 称 属性 值 转 
换 成 未 指定 数量 的 字符 串 值 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 


attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 转 换 指定 范围 内 的 标 称 属性 ， 但 非 
标 称 属性 则 保持 不 变 ，fast 和 last 都 是 有 效 值 。 

23) Normalize 

Normalize 过 滤器 规范 化 给 定数 据 集中 的 全 部 数值 ， 如 果 已 设置 类 别 属 性 则 除外 。 默 
认 情 况 下 ， 用 于 计算 规范 化 间隔 的 数据 其 结果 值 将 在 [0.1] 区 间 。 通 过 改变 缩放 和 平移 参 
数 ， 可 以 改变 计算 结果 。 例 如 ， 规 模 =2.0 并 且 换 算 = -1.0， 结 果 值 在 [-1，+1] 范 围 。 

通用 对 象 编 辑 器 界面 说 明 如 下 。 


ignoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 和 暂时 取消 设置 类 别 索引 。 
scale( 缩 放 比例 ): 输出 范围 的 缩放 比例 因子 ， 默 认 值 为 1 。 
translation( 换 算 ): 输出 范围 的 换算 ， 默 认 值 为 0。 


24) NumericCleaner 

NumericCleaner 过 滤器 “净化 ”过 小 、 过 大 或 非常 接近 到 一 定 值 (如 0) 的 数值 数据 ， 将 
这 些 值 设 置 为 预先 定义 的 默认 值 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 


attributeIndices( 属 性 索引 ): 指定 cleansing 操作 的 属性 范围 。 范 围 内 的 任何 非 标 称 
属性 将 保持 不 变 ，fast 和 last 都 是 有 效 值 。 

closeTo( 接 近 ): 数字 值 ， 检 查 是 否 过 于 接近 这 些 值 ， 并 替换 为 默认 值 。 
closeToDefault( 接 近 默 认 值 ): 蔡 换 过 于 接近 默认 值 的 值 。 
closeToTolerance( 接 近 容 差 ): 低 于 该 值 就 认为 是 接近 。 

debug( 调 试 ): 打开 调试 信息 的 输出 。 

decimals( 位 数 ): 四 售 五 入 的 小 数位 数 ，-1 表示 没有 舍 入 。 
includeClass( 包 含 类 别 ): 如 果 禁 用 ， 净 化 过 程 将 忽略 类 别 属性 。 
invertSelection( 反 选 ): 如 果 启 用 ， 反 向 选择 列 。 
ImaxDefault( 最 大 默认 值 ): 默认 值 ， 用 于 蔡 换 超出 最 大 阔 值 的 值 。 
maxThreshold( 最 大 闵 值 ): 最 大 阔 值 ， 超 出 该 值 将 蔡 换 为 默认 值 。 
minDefault( 最 小 默认 值 ): 默认 值 ， 用 于 替换 低 于 最 小 阔 值 的 值 。 
minThreshold( 最 小 阔 值 ): 最 小 闵 值 ， 低 于 该 值 将 蔡 换 为 默认 值 。 


25) NumericToBinary 
NumericToBinary 过 滤器 采用 将 非 零 值 变 为 1 的 办 法 将 所 有 数值 属性 转换 成 二 元 属 
性 ， 如 果 设 置 了 类 别 属性 则 除外 。 新 属性 是 标 称 型 。 如 果 数 值 属性 的 值 恰好 为 零 ， 新 属性 
的 值 也 将 是 零 ， 如 果 数 值 属性 的 值 丢失 ， 新 属性 的 值 也 将 丢失 。 否 则 ， 新 属性 的 值 将 是 1 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
ignoreClass( 忽 略 类 别 ):， 应 用 过 滤器 之 前 ， 将 暂时 取消 设置 类 别 索引 。 
26) NumericToNominal 
NumericToNominal 过 滤器 通过 简单 地 添加 某 个 数字 属性 的 所 有 观测 值 到 标 称 值 列表 ， 
将 数值 属性 转换 为 标 称 属 性 。 不 像 离散 化 ， 该 过 滤器 只 是 将 全 部 数字 值 添加 到 该 属性 的 标 
称 值 列表 中 。 在 使 用 CSV 导入 后 ， 如 需要 强制 将 某 些 属性 转换 为 标 称 型 ， 该 过 滤器 非常 
有 用 。 例 如 ， 转 换 其 值 为 从 1 到 5 范围 的 类 别 属性 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，fast 
和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
debug( 调 试 ): 打开 调试 信息 的 输出 。 
invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 有 选 定 范围 内 的 数值 
属性 才 进 行 “ 标 称 化 ”; 如 果 为 True， 只 有 非 选 定 的 属性 才 进 行 “ 标 称 化 ”。 
27) NumericTransform 
NumericTransform 过 滤器 使 用 一 个 给 定 的 转换 方法 (Java 函数 ) 转 换 数值 属性 。 
通用 对 象 编 辑 器 界面 说 明 如 下 。 
e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，fast 
和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
e@ className(Java 类 名 称 ): Java 类 名 称 ， 包 含 用 于 转换 的 方法 。 
e ”invertSelection( 反 选 ); 是 否 要 反 向 选择 给 定 的 属性 范围 。 
e ImethodName( 方 法 名 称 ): 转换 的 方法 名 称 。 
28) Obfuscate 
Obfuscate 是 一 个 简单 的 实例 过 滤器 ， 用 于 对 关系 、 全 部 属性 名 称 ， 以 及 所 有 标 称 型 和 
字符 串 型 属性 值 进行 重 命名 ， 对 数据 集 进行 模糊 处 理 ， 其 目的 主要 是 交换 敏感 数据 集 。 目 
前 尚 不 能 处 理 字 符 串 属性 和 关系 属性 。 
该 过 滤器 不 需要 设置 任何 参数 。 
29) PartitionedMultiFilter 
PartitionedMultiFilter 是 一 个 元 过 滤器 ， 该 过 滤器 对 指定 范围 的 属性 子 集 应 用 多 个 过 滤 
器 ， 并 汇集 输出 到 一 个 新 数据 集 。 不 包括 在 所 选 范围 内 的 属性 ， 可 以 从 输出 中 选择 保留 或 
者 删除 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e ”debug( 调 试 ): 打开 调试 信息 的 输出 。 
e ”filters (过 滤器 ): 使 用 的 基 过 滤器 。 
e ”ranges( 范 围 );: 所 使 用 的 属性 范围 ，inv(.…) 表 示 反 选 范围 。 
e ”removeUnused( 删 除 未 用 ): 如 果 为 True， 则 从 输出 中 删除 未 使 用 的 属性 (没有 在 指 
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定 范围 内 的 属性 )。 


30) Partition Membership 
PartitionMembership 过 滤器 使 用 一 个 划分 产生 器 (PartitionGenerator) 生 成 划分 的 隶属 度 
值 。 过 滤 后 的 实例 集 由 这 些 值 加 上 类 别 属性 (如 果 在 输入 数据 中 设置 ) 组 成 ， 并 以 稀疏 实例 


呈现 。 
通 上 


对 象 编辑 器 界面 说 明 如 下 。 


partitionGenerator( 划 分 产生 器 ): 由 实例 集 生成 的 隶属 度 值 的 划分 产生 器 。 

31) PKIDiscretize 

PKIDiscretize 过 滤器 使 用 等 频 分 箱 离 散 化 数值 属性 ， 其 中 ， 箱 的 数目 等 于 非 缺失 值 数 
量 的 平方 根 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，fast 
和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
bins( 箱 ): 忽略 。 

desiredWeightOfInstancesPerInterval( 每 个 间隔 期 望 的 实例 权重 ): 设置 等 频 分 箱 中 
每 个 间隔 期 望 的 实例 权重 。 

findNumBins (搜索 箱 数 ): 忽略。 

ignoreClass (忽略 类 别 ): 应 用 过 滤器 之 前 ， 暂 时 取消 设置 类 别 索引 。 
invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 有 选 定 范围 内 的 数值 
属性 将 离散 化 ， 如果 为 True， 只 有 非 选 定 的 属性 将 离散 化 。 

makeBinary( 二 元 化 ): 使 结果 属性 二 元 化 。 

useBinNumbers( 使 用 箱 号 码 ): 使 用 箱 号 码 ( 例 如 BXofY)， 而 不 是 离散 化 的 属性 范 
围 。 

useEqualFrequency( 使 用 等 频 ): 总 是 设置 为 True。 


32) PrincipalComponents 

PrincipalComponents 过 滤器 进行 数据 的 主 成 分 分 析 和 转换 。 

维 数 降 低 是 通过 选择 足够 的 特征 向 量 ， 在 原始 数据 的 方差 占 到 一 定 百分比 ， 默 认 值 为 
0.95(95%)。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

centerData( 中 心 化 数据 ): 布尔 型 ， 中 心 化 (而 不 是 标准 化 ) 数 据 。PCA 将 由 协 方差 
和 矩阵 (而 不 是 相关 矩阵 ) 计 算出 来 。 

maximumAttributeNames( 最 大 属性 名 称 ): 包含 转换 属性 名 称 的 属性 的 最 大 数量 。 
maximumAttributes( 最 大 属性 ): 要 保留 的 PC 属性 最 大 数量 。 

varianceCovered( 差 分 占 比 ): 保留 足够 的 PC 属性 ， 考 虑 到 差分 所 占 的 比例 。 


33) RandomProjection 
RandomProjection 过 滤器 通过 使 用 列 为 单位 长 度 的 随机 和 矩阵， 将 数据 投影 到 一 个 低 维 


子 空 间 ， 


以 此 来 降低 数据 维 数 。 类 似 于 PCA，RandomProjection 过 滤器 会 减少 在 数据 中 属 


性 数目 的 同时 ， 尽 可 能 保留 其 变化 ， 但 计算 量 少 得 多 。 
在 降 维 之 前 ， 该 过 滤器 先 应 用 NominalToBinary 过 滤器 将 全 部 属性 都 转换 成 数值 型 ， 


© 


保持 类 内 


通 上 


属性 不 变 。 
对 象 编辑 器 界面 说 明 如 下 。 
distribution( 分 布 ); 用 于 计算 随机 和 矩阵 的 分 布 。 
Sparsel 的 计算 公式 为 : 
sqrt(3) * { -1 with prob(1/6), 

0 with prob(2/3), 

+1 with Prob (1/6) } 
Sparse2 的 计算 公式 为 : 
{ -1 with prob(1/2)， 

+1 with prob(1/2) } 

numberOfAttributes( 属 性 数量 ): 数据 应 该 减少 到 的 维 数 ， 即 属性 的 数量 。 
percent( 百 分 比 ): 数据 集中 ， 包 括 类 别 属 性 在 内 的 属性 应 该 减少 到 的 百分比 ( 属 
性 )。 如 果 本 选项 存在 并 大 于 零 ， 则 忽略 numberOfAttributes 选项 。 
randomSeed( 随 机 种 子 ): 随机 数 发 生 器 使 用 的 随机 种 子 ， 用 于 产生 随机 甜 阵 。 
replaceMissingValues( 替 换 缺失 值 )， 是 否 设置 过 滤器 使 用 weka filters.unsupervised. 
attribute.ReplaceMissingValues 以 蔡 换 缺失 值 。 


34) RandomSubset 
RandomSubset 过 滤器 选择 属性 的 一 个 随机 子 集 ， 可 以 用 绝对 数值 或 百分比 指定 抽取 的 
范围 。 输 出 的 新 数据 集 总 是 把 类 别 属性 作为 最 后 一 个 属性 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 打开 调试 信息 的 输出 。 

numAttributes( 属 性 数量 ): 选择 的 属性 数量 。 如 果 为 百分比 ， 值 必须 小 于 1; 如 果 
为 属性 的 绝对 数量 ， 值 必须 大 于 等 于 1。 

seed( 种 子 ): 随机 数 发 生 器 的 种 子 值 。 


35) Remove 
Remove 过 滤器 删除 数据 集中 指定 范围 的 属性 。 如 果 打开 反 向 匹配 ( 即 反选 )， 并 且 没有 
指定 属性 列 索引 按 升 序 排序 ， 则 重新 排序 的 其 余 属性 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隅 ，fast 
和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
invertSelection( 反 选 ); 确定 行为 是 选择 还 是 排除 。 如 果 设 置 为 True， 只 保留 指定 
的 属性 ， 如 果 设 置 为 False， 将 删除 指定 的 属性 。 


36) RemoveByName 
RemoveByName 过 滤器 删除 其 名 字 与 正则 表达 式 相 匹 配 的 属性 。 


通用 
. 


对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 打开 调试 信息 的 输出 。 

expression( 表 达 式 ): 用 于 匹配 的 属性 名 称 的 正则 表达 式 。 

invertSelection( 反 选 ): 确定 是 否 选择 还 是 排除 操作 。 如 果 设 置 为 True， 只 保留 指 
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定 的 属性 ， 如果 设 置 为 False， 将 删除 指定 的 属性 。 
37) RemoveType 
RemoveType 过 滤器 与 Remove 过 滤器 类 似 ， 其 功能 是 删除 给 定 类 型 ( 标 称 型 、 数 字 


、 字 符 串 型 或 日 期 型 ) 的 全 部 属性 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 

e ”attributeType( 属 性 类 型 )， 要 删除 的 属性 类 型 。 

e@ ”invertSelection( 反 选 ): 确定 是 选择 还 是 排除 操作 。 如 果 设 置 为 True， 只 保留 指定 
的 属性 ， 如 果 设 置 为 False， 将 删除 指定 的 属性 。 


38) RemoveUseless 


RemoveUseless 过 滤器 删除 全 部 值 都 不 变 的 常量 属性 ， 以 及 差别 较 大 的 标 称 属性 ， 即 


在 全 部 实例 中 值 都 各 不 相同 的 标 称 属性 。 用 户 可 以 通过 确定 不 相同 的 值 的 数量 占 值 总 数 的 
百分比 来 决定 可 以 容忍 的 变化 度 ， 决 定 是 否 删除 一 个 属性 。RemoveType 过 滤器 和 
RemoveUseless 过 滤器 都 会 跳 过 类 别 属性 ， 默 认 情况 下 ， 最 后 一 个 属性 是 类 别 属性 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 
maximumVariancePercentageAllowed( 允 许 的 最 大 偏差 百分比 ): 设置 删除 标 称 属性 最 大 


偏差 的 阔 值 。 有 具体 而 言 ， 如 果 (number of distinct values / total number of values * 100) 大 
于 该 值 ， 则 删除 该 属性 。 


39) RenameAttribute 
RenameAttribute 过 滤器 用 于 重 命名 属性 名 称 。 
可 以 用 正则 表达 式 进行 匹配 和 蔡 换 操作 ， 请 参阅 Javadoc 中 java.util.regex.Pattem 类 的 


更 多 信息 。 


性 


通用 对 象 编 辑 器 界面 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，fast 

和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

debug( 调 试 ): 打开 调试 信息 的 输出 。 

find( 查 找 ): 属性 名 必须 匹配 的 正则 表达 式 。 

Teplace( 蔡 换 ): 用 于 替换 匹配 的 属性 名 称 的 正则 表达 式 。 

TeplaceAll( 蔡 换 全 部 ): 如 果 设 置 为 True， 那 么 蔡 换 匹 配 的 全 部 属性 名 称 ， 和 否则 只 

替换 第 一 个 。 

e@ ”invertSelection( 反 选 );: 如果 设置 为 True， 则 使 用 反 向 选择 。 例 如 : 属性 索引 “2- 
4”， 指 的 是 除 “2-4” 以 外 的 全 部 属性 。 

40) Reorder 

Reorder 过 滤器 更 改 属性 的 顺序 。 如 果 用 户 要 将 某 属 性 移动 到 尾部 ， 使 它 成 为 类 别 属 

可 以 使 用 本 过 滤器 。 例 如 ， 使 用 “-R 2-last,1” 将 第 一 个 属性 移动 到 尾部 。 

使 用 它 不 仅 可 以 改变 全 部 属性 的 顺序 ， 还 可 以 排除 属性 。 例 如 ， 如 果 有 10 个 属性 ， 


可 以 使 用 “1,3,5,7,9,10”， 或 “10,1-5”， 生 成 不 同 的 输出 顺序 。 


可 以 为 下 一 步 处 理 而 复制 属性 。 例 如 : “1.1.1.4.4.4.2.2.2”， 其 中 的 第 二 和 第 三 列 中 


的 每 个 属性 的 处 理 方式 不 同 ， 而 第 一 列 则 保持 原来 的 位 置 。 注 : Weka 正式 文档 这 样 记 
载 ， 但 使 用 时 会 报错 ， 错 误 信 息 为 “Attribute names are not unique!”( 属 性 名 称 不 唯一 ! )。 


可 以 通过 “last-first” 简 单 地 将 属性 按 逆 序 排 列 。 
应 用 过 滤器 后 ， 类 别 属 性 将 是 最 后 一 个 属性 。 


通 上 


对 象 编辑 器 界面 说 明 如 下 。 


attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，fast 和 


last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
41) ReplaceMissingValues 


ReplaceMissingValues 过 滤器 将 数据 集中 全 部 缺失 的 标 称 属性 值 和 数值 属性 值 蔡 换 为 


训练 数据 
通用 


的 模 值 modes) 和 均值 。 
对 象 编辑 器 界面 说 明 如 下 。 


ignoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 暂 时 取消 设置 类 别 索引 。 
42) ReplaceMissing WithUserConstant 
ReplaceMissingWithUserConstant 过 滤器 将 数据 集中 标 称 、 字 符 串 、 数 值 和 日 期 属性 的 


全 部 缺失 
通用 


值 蔡 换 为 用 户 指定 的 常量 值 。 

对 象 编辑 器 界面 说 明 如 下 。 

attributes( 属 性 ): 指定 操作 的 属性 范围 。 这 是 一 个 逗号 分 隅 的 属性 索引 ，first 和 
last 均 为 有 效 值 。 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 也 可 以 指 
定 一 个 用 逗号 分 隔 的 属性 名 称 列表 。 请 注意 ， 不 能 在 同一 个 列表 中 混用 索引 和 属 
性 名 称 。 

dateFormat( 日 期 格式 ): 用 于 解析 日 期 替换 值 的 格式 化 字符 串 。 
dateReplacementValue( 日 期 蔡 换 值 ): 用 于 替换 日 期 属性 缺失 值 的 常量 。 
ignoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 暂 时 取消 设置 类 别 索引 。 
nominalStringReplacementValue( 标 称 字符 串 替 换 值 ): 用 于 替换 标 称 属性 和 字符 串 
属性 缺失 值 的 常量 。 

numericReplacementValue( 数 值 蔡 换 值 ): 用 于 替换 数值 属性 缺失 值 的 常量 。 


43) SortLabels 
SortLabels 是 一 个 对 标 称 属性 标签 进行 排序 的 简单 过 滤器 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 打开 调试 信息 的 输出 。 

invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 处 理 选 定 范围 内 的 属 
性 ; 如果 为 True， 只 处 理 非 选 定 的 属性 。 

sortType( 排 序 类 型 ): 排序 使 用 的 类 型 。 


44) Standardize 
Standardize 过 滤器 将 给 定数 据 集 的 全 部 数值 属性 标准 化 为 具有 零 均值 和 单位 方差 ， 忽 
略 类 别 属性 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 


ignoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 暂 时 取消 设置 类 别 索引 。 

45) StringToNominal 

StringToNominal 过 滤器 将 指定 范围 内 的 字符 串 属性 (未 指定 值 的 数目 ) 转 换 为 标 称 值 ( 指 
定 值 的 数目 )。 用 户 要 确保 所 有 出 现 的 字符 串 值 都 会 在 第 一 批 数据 中 出 现 。 


ET 
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通 上 


3 对象 编辑 器 界面 说 明 如 下 。 


attributeRange( 属 性 范围 ): 设置 处 理 哪 些 属性 。 这 些 属 性 必须 是 字符 串 属性 ，first 和 
last 以 及 范围 和 列表 都 是 有 效 值 。 

46) StringToWordVector 

StringToWordVector 过 滤器 将 字符 串 属性 转换 为 向 量 类 型 ， 表 示 单 词 出 现 的 频率 。 具 
体 方 法 是 ， 根 据 字 符 串 中 包含 的 文本 ， 将 字符 串 属性 转换 为 一 个 表示 词 出 现 次 数 (基于 
TokenizerD 信 息 的 属性 集合 。 词 (属性 ) 集 合 由 第 一 次 过 滤 (通常 为 训练 数据 ) 确 定 。 


通 上 


对 象 编辑 器 界面 说 明 如 下 。 


IDFTransform(IDF 转换 ): 设置 是 否 将 一 个 文档 中 的 词 频 转换 为 : 
fij*log(Docs 数量 /含有 词 1 的 Docs 数量 ) 

其 中 ， 铭 为 词 i 文 档 (实例 中 出 现 的 频率 。 
TFTransform(TF 转换 ): 设置 是 否 将 词 频 转换 为 : 
log(1+f1) 
其 中 ， 铭 为 词 i 文 档 (实例 中 出 现 的 频率 。 
attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，fast 
和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
attributeNamePrefix( 属 性 名 称 前 级 ): 所 创建 的 属性 名 称 前 缀 ， 默 认为 空 字符 串 
(= 
doNotOperateOnPerClassBasis( 不 基于 每 个 类 别 操作 ): 如 果 设 置 该 项 ， 单 词 的 最 大 
数目 和 最 低 限度 的 频率 不 是 基于 每 个 类 别 ， 而 是 基于 文档 中 的 全 部 类 别 (即使 设置 
了 类 别 属性 )。 
invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 处 理 选 定 范围 内 的 属 
性 ， 如 果 为 True， 只 处 理 非 选 定 的 属性 。 
lowerCaseTokens( 小 写 符号 ): 如 果 设 置 该 项 ， 则 先 将 全 部 单词 符号 转换 成 小 写 ， 
然后 再 添加 到 词典 中 。 
minTermFreq( 最 低 限 度 频率 ): 设置 的 最 低 限 度 频率 ， 这 是 基于 每 个 类 别 的 要 求 。 
normalizeDocLength( 标 准 化 文档 ): 设置 是 否 标准 化 文档 (实例 ) 的 词 频 。 
outputWordCounts( 输 出 单词 计数 ): 输出 单词 计数 ， 而 不 是 表示 为 单词 不 存在 或 存 
在 的 布尔 值 0 或 1。 
periodicPruning( 定 期 修剪 ): 指定 速率 (输入 数据 集 的 x%)， 以 此 定期 修剪 词典 。 创 
建 一 个 完整 的 词典 后 ， 修 前 wordsToKeep。 这 种 方法 可 能 导致 没有 足够 内 存 。 
stemmer( 词 干 分 析 器 ): 用 于 单词 的 词 干 提取 算法 。 
stopwords( 停 用 词 ): 包含 停 用 词 的 文件 ， 如 果 为 目录 ， 则 使 用 默认 值 。 
tokenizer( 分 词 器 ): 用 于 字符 串 的 分 词 算法 。 
useStoplist( 忽 略 停 用 词 列 表 ): 如 果 设置 为 Tme， 忽 略 所 有 的 停 用 词 列表 。 
wordsToKeep( 保 持 的 单词 ): 尝试 保持 的 单词 数量 (如 果 是 分 配 了 类 别 属性 ， 则 以 
每 个 类 别 为 基础 )。 


47) SwapValues 
SwapValues 过 滤器 交换 同一 个 标 称 属性 的 两 个 值 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 
e attributeIndex( 属 性 索引 ): 设置 处 理 的 属性 。 此 属性 必须 是 标 称 型 ，first 和 last 都 
是 有 效 值 。 
e ”firstValueIndex( 第 一 个 值 的 索引 ): 第 一 个 值 的 索引 ，first 和 last 都 是 有 效 值 。 
@ ”secondValueIndex( 第 二 个 值 的 索引 ): 第 二 个 值 的 索引 ，first 和 last 都 是 有 效 值 。 
48) TimeSeriesDelta 
TimeSeriesDelta 是 一 个 实例 过 滤器 。 它 假定 实例 形成 时 间 序 列 数 据 ， 并 将 当前 实例 属 
性 值 替 换 为 以 前 (或 未 来 ) 的 实例 的 等 效 属性 值 与 当前 值 之 间 的 差 值 。 对 于 时 移 差 值 未 知 的 
实例 ， 要 么 删除 实例 ， 要 么 使 用 缺失 值 。 如 果 设 置 类 别 属性 ， 则 忽略 之 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e ”attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
e ”fillWithMissing( 用 缺失 值 填充 ):， 布尔 型 。 在 数据 集 开头 或 结尾 的 实例 中 ， 如 果 经 
翻译 后 的 值 不 可 知 ， 就 使 用 缺失 值 (默认 是 删除 这 些 实例 )。 
e@ instanceRange( 实 例 范围 )， 实 例 的 数量 ， 将 前 向 /后 向 的 区 间 值 进行 合并 。 负 数 表 
示 从 前 面 的 实例 中 取 值 。 
@ ”invertSelection( 反 选 ); 反 向 匹配 ， 即 计算 全 部 没有 指定 的 列 。 
49) TimeSeriesTranslate 
TimeSeriesTranslate 过 滤器 假定 实例 构成 时 间 序 列 数 据 ， 并 采用 以 前 (或 未 来 ) 的 实例 的 
等 效 属性 值 取 代 当 前 实例 中 的 属性 值 。 对 于 所 需 值 未 知 的 情况 ， 要 么 丢弃 实例 ， 要 么 使 用 
缺失 值 。 如 果 设 置 类 别 属性 ， 就 忽略 该 属性 。 
通用 对 象 编 辑 器 界面 说 明 如 下 。 
e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
e ”fillWithMissing( 用 缺失 值 填充 ):， 布尔 型 。 在 数据 集 开头 或 结尾 的 实例 中 ， 如 果 经 
翻译 后 的 值 不 可 知 ， 就 使 用 缺失 值 (默认 是 删除 这 些 实例 )。 
e@ instanceRange( 实 例 范围 ): 实例 的 数量 ， 将 前 向 /后 向 的 区 间 值 进行 合并 ， 负 数 表 
示 从 前 面 的 实例 中 取 值 。 
e ”invertSelection( 反 选 ); 反 向 匹配 ， 即 计算 全 部 没有 指定 的 列 。 
无 监督 实例 过 滤器 
1) NonSparseToSparse 
NonSparseToSparse 是 一 个 实例 过 滤器 ， 将 全 部 输入 实例 转换 为 稀疏 格式 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
einsertDummyNominalFirstValue( 标 称 第 一 个 值 前 插入 虚拟 值 ): 对 于 所 有 标 称 属 
性 ， 在 第 一 个 值 声明 之 前 先 插入 一 个 虚拟 值 。 将 已 编码 为 Apriori 的 市 场 购物 篮 
数据 转换 为 稀 朴 格式 时 非常 有 用 。 通 常 与 将 缺失 值 处 理 为 零 的 方式 一 并 使 用 。 
e ”treatMissingValuesAsZero( 缺 失 值 处 理 为 零 ): 将 缺失 值 作为 零 的 方式 处 理 。 


2) Randomize 


Randomize 过 滤器 随机 打 乱 通过 的 实例 顺序 。 每 当 传递 一 组 新 实例 时 ， 随 机 数 发 生 器 


让 


Or 


© 
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使 用 其 种 子 值 进行 复位 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 


randomSeed( 随 机 种 子 ): 随机 数 发 生 器 的 种 子 。 

3) RemoveFolds 

RemoveFolds 过 滤器 将 数据 集 作为 输入 ， 并 为 交叉 验证 输出 指定 第 几 折 。 如 果 想 使 用 
分 层 折 数 的 交叉 验证 ， 请 使 用 有 监督 的 版 本 。 


通用 
. 
LL 
. 


对 象 编辑 器 界面 说 明 如 下 。 

fold( 折 ): 选择 的 折 。 

invertSelection( 反 选 ): 是 否 反选 。 

numFolds( 折 数 ): 数据 集 分 割 成 的 折 数 。 

seed( 种 子 ): 对 数据 集 重新 排序 的 随机 数 种 子 。 如 果 种 子 为 负数 ， 将 不 重新 排序 。 


4) RemoveFrequentValues 

RemoveFrequentValues 过 滤器 决定 保留 某 个 标 称 型 属性 那些 (经 常 或 不 经 常 使 用 ) 的 
值 ， 并 相应 地 过 滤 其 实例 。 当 一 些 值 具有 相同 频率 的 情况 下 ， 将 按照 原来 的 实例 对 象 出 现 
的 顺序 进行 筛选 。 例 如 ， 如 果 有 值 “1,2,.3,4”， 其 频率 为 “10,5,.5.3”， 选 择 保留 2 个 最 常 


见 的 值 ， 结 果 将 是 值 “1.2”， 这 是 因为 即便 “2” 和 “3” 具 有 相同 的 频率 ， 值 “2” 出 现 
在 “3” 之 前 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ ”attributeIndex( 属 性 索引 ): 用 于 选择 的 属性 索引 ， 默 认为 最 后 一 

e@ ”invertSelection( 反 选 ); 反 向 匹配 。 

。 ”modifyHeader( 修 改 头 ): 选择 标 称 属性 时 ， 删 除 引 用 到 排除 值 的 头 。 

e ”numValues( 值 的 数目 ): 保留 的 值 的 数目 。 

@ useLeastValues( 使 用 最 少 值 ): 如 果 为 True， 则 保留 最 少 实例 的 值 ， 而 不 是 最 多 的 。 


5) RemoveMisclassified 


RemoveMisclassified 过 滤器 用 于 删除 错误 分 类 的 实例 ， 主 要 用 于 去 除 离 群 值 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

classIndex( 类 别 索引 ): 判断 错误 分 类 所 基于 的 类 别 索引 。 如 果 其 值 小 于 0， 则 使 
用 当前 的 类 别 设置 ， 默 认为 最 后 一 个 属性 。 

classifier( 分 类 器 ): 产生 错误 分 类 的 分 类 器 。 

invert( 反 向 ): 是 否 反 向 选择 。 如 果 为 True， 则 丢弃 当前 正确 分 类 的 实例 。 
maxIterations( 最 大 迭代 ): 迭代 执行 的 最 大 数目 。 小 于 1 时 ， 意 味 着 过 滤器 一 直 运 
行 ， 直 到 完全 净化 。 

numFolds( 折 数 ): 使 用 的 交叉 验证 的 折 数 。 如 果 小 于 2， 则 不 进行 交叉 验证 。 
threshold( 闵 值 )， 预测 的 数值 分 类 时 的 最 大 允许 误差 阔 值 ， 其 值 应 该 大 于 等 于 0。 


6) RemovePercentage 


RemovePercentage 过 滤器 删除 数据 集中 的 给 定 百分比 的 实例 。 


通 上 


对 象 编辑 器 界面 说 明 如 下 。 


invertSelection( 反 选 ): 是 否 反 向 选择 。 
percentage( 百 分 比 ): 选择 数据 的 百分比 。 


7) RemoveRange 

RemoveRange 过 滤器 删除 数据 集 里 给 定 范围 的 实例 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e ”instancesIndices( 实 例 索 引 ): 选择 的 实例 范围 ，first 和 last 都 是 有 效 的 索引 。 

e@ ”invertSelection( 反 选 ); 是 否 反 选 。 

8) RemoveWithValues 

RemoveWithValues 过 滤器 根据 属性 值 过 滤 实例 ， 筛 选 出 具有 特定 属性 值 的 实例 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ attributeIndex( 属 性 索引 ): 挑选 用 于 选择 的 属性 ， 默 认为 最 后 一 个 。 

e@ ”dontFilterAfterFirstBatch( 第 一 批 后 不 过 滤 ): 是 否 对 输入 的 第 一 批 (训练 ) 实 例 应 用 
过 滤 处 理 。 默 认 值 是 False， 以 便 后 续 批 次 的 实例 有 可 能 让 过 滤器 “消费 ”。 
invertSelection( 反 选 ): 反 向 匹配 。 
matchMissingValues( 匹 配 缺失 值 ): 计数 缺失 值 作为 匹配 项 ， 此 设置 独立 于 
invertSelection 选项 。 
modifyHeader( 修 改 头 ): 当选 择 标 称 属 性 时 ， 删 除 引 用 到 排除 值 的 头 。 
nominalIndices( 标 称 索 引 ): 用 于 选择 标 称 属性 的 标签 索引 范围 ，first 和 last 都 是 
有 效 的 索引 。 

e splitPoint( 分 割 点 ): 用 于 选择 数值 属性 的 数值 ， 将 选中 其 值 小 于 给 定 值 的 实例 。 

9) Resample 

Resample 过 滤器 通过 有 放 回 或 无 放 回 的 抽样 产生 数据 集 的 随机 子 样本 。 原 始 数 据 集 必 

须 完全 装载 在 内 存 中 ， 可 以 指定 所 生成 数据 集 实 例 的 数量 。 在 批 处 理 模式 下 使 用 时 ， 后 续 
批 次 不 再 重复 采样 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ ”invertSelection( 反 选 ); 反 向 选择 ， 仅 用 于 无 放 回 的 实例 抽样 。 

enoReplacement( 无 放 回 ): 禁用 实例 放 回 抽样 。 

e randomSeed( 随 机 种 子 ): 用 于 随机 抽样 的 种 子 。 

@ ”sampleSizePercent( 样 本 大 小 百分比 ): 子 样本 的 大 小 占 原始 数据 集 的 百分比 。 

10) ReservoirSample 

ReservoirSample 过 滤器 使 用 Vitter 的 水 库 抽 样 算法 “R”， 产 生 数 据 集 的 一 个 随机 子 

样本 。 子 样本 (reservoir) 必 须 装载 到 主 存储 器 ， 但 原始 数据 集 则 不 必 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e ”randomSeed( 随 机 种 子 ): 用 于 随机 抽样 的 种 子 。 

。 sampleSize( 样 本 大 小 ): 子 样本 (水 库 ) 的 大 小 ， 即 实例 的 数量 。 

11) SparseToNonSparse 

SparseToNonSparse 实例 过 滤器 将 输入 的 所 有 稀疏 实例 ， 转 换 为 非 稀疏 格式 。 

不 需要 设置 参数 。 

12) SubsetByExpression 

SubsetByExpression 过 滤器 根据 应 用 于 属性 值 的 、 由 数学 和 逻辑 运算 符 组 成 的 逻辑 表 

达 式 的 评价 结果 ， 决 定 是 否 保留 实例 。 
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一 -WE 
语法 如 下 。 


boolexpr list boolexpr list boolexpr part | boolexpr part; 
boolexpr part ::= boolexpr:e {: parser.setResult(e); :} ; 
boolexpr ::= BOOLEAN 

true 


false 

expr < expr 

expr <= expr 

expr > expr 

expr >= expr 

expr = expr 

( boolexpr ) 

not boolexpr 
boolexpr and boolexpr 
boolexpr or boolexpr 
ATTRIBUTE is STRING 


expr ::= NUMBER 
ATTRIBUTE 
( expr ) 
opexpr 
funcexpr 


opexpr  ::= expr + expr 
expr - expr 
expr * expr 
expr / expr 


funcexpr ::= abs ( expr ) 
sqrt ( expr ) 

log 
exp 
sin 
cos 


上 


tan ( expr 

rint ( expr ) 

floor ( expr ) 

pow ( expr for base , expr for exponent ) 
ceil ( expr ) 


注意 : 
。 NUMBER 

任何 整数 或 浮 点 数 (但 不 用 科学 记 数 法 ! ) 
。 STRING 

任何 用 单 引号 包括 的 字符 串 。 


但 字符 串 也 有 可 能 不 用 单 引号 。 


活 


示例 


ATTRIBUTE 

以 下 占 位 符 均 会 确认 为 是 属性 值 : 

e CLASS 设置 类 别 属性 后 的 类 别 值 。 

4 ， ATTxyz xyz 表示 属性 的 索引 值 ， 范 围 从 1 到 数据 集 的 属性 总 数 。 

从 UCI 数 据 集 “zoo” 中 ， 只 提取 哺乳 动物 和 鸟 类 : 

(CLASS is mammal) or (CLASS is bird) 

从 UCI 数 据 集 “zoo” 中 ， 只 提取 至 少 有 2 条 腿 的 动物 : 

(ATT14>=2) 

从 UCI 数 据 集 “labor” 中 ， 只 提取 属性 wage-increase-second-year 没有 缺失 的 实例 ; 
not ismissing(ATT3) 


对 象 编辑 器 界面 说 明 如 下 。 


debug( 调 试 ): 打开 调试 信息 的 输出 。 

expression( 表 达 式 ): 用 于 过 滤 数 据 集 的 表达 式 。 
filterAfterFirstBatch( 第 一 批 后 过 滤 ): 是 否 对 输入 的 第 一 批 (训练 ) 实 例 应 用 过 滤 处 
理 。 默 认 值 是 False， 这 样 ， 当 在 FilteredClassifier 中 使 用 时 ， 测 试 实例 不 能 只 让 
过 滤器 “消费 ”， 而 是 总 要 做 出 预测 。 


有 监督 属性 过 滤器 


1) AddClassification 
AddClassification 过 滤器 使 用 分 类 器 为 数据 集 添加 分 类 、 分 类 分 布 和 错误 标志 。 分 类 
器 可 以 通过 对 数据 本 身 进行 训练 而 得 到 ， 也 可 以 通过 序列 化 模型 得 到 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 
classifier( 分 类 器 ): 用 于 分 类 的 分 类 器 。 


edebug( 调 试 ): 打开 调试 信息 的 输出 。 

@ outputClassification( 输 出 分 类 ): 是 否 添加 一 个 实际 分 类 的 属性 。 

e ”outputDistribution( 输 出 分 布 ): 是 否 要 为 全 部 分 类 (对 于 数值 型 分 类 ， 这 和 采用 
outputClassification 选项 的 属性 输出 相同 ) 添 加 属性 的 分 布 。 

e ”outputErrorFlag( 输 出 错误 标志 ): 是 否 添 加 一 个 属性 ， 指 示 分 类 器 是 否 输出 错误 的 
分 类 。 

eremoveOldClass( 删 除 旧 的 类 别 ): 是 否 删除 旧 的 类 别 属性 。 

@ serializedClassifierFile( 序 列 化 分 类 器 文件 ): 一 个 序列 化 模型 文件 ， 包 含 已 经 训练 
过 的 分 类 器 。 

2) AttributeSelection 

AttributeSelection 是 一 个 有 监督 的 属性 过 滤器 ， 可 用 于 选择 属性 。 该 过 滤器 非常 灵 

允许 将 各 种 搜索 和 评估 方法 联合 使 用 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 


evaluator( 评 估 器 ): 确定 如 何 对 属性 (或 属性 子 集 ) 进 行 评估 。 
search( 搜 索 ): 确定 搜索 方法 。 


3) ClassOrder 
ClassOrder 过 滤器 更 改 类 别 顺序 ， 使 类 别 值 不 再 按 标 头 中 指定 的 顺序 。 类 别 值 将 按 用 
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户 指定 的 顺序 ， 可 以 按 类 别 频率 升序 /降序 排列 ， 也 可 以 以 随机 顺序 排列 。 请 注意 ， 这 个 过 
滤器 目前 不 改变 标 头 ， 只 改变 实例 的 类 别 值 ， 因 此 联合 使 用 它 与 FilteredClassifier 并 没有 
多 大 意义 。 值 也 可 以 调用 originalValue(double value) 函 数 进行 转换 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ classOrder( 类 别 顺序 ): 指定 过 滤 后 的 类 别 顺序 。 
e ”seed( 种 子 ): 指定 分 类 的 顺序 随机 种 子 。 

4) Discretize 


Discretize 过 滤器 将 数据 集中 一 定 范围 内 的 数值 属性 离散 化 为 标 称 属性 。 默 认 的 离散 化 


方法 是 Fayyad & Irani 的 MDL 判 据 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，fast 
和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

einvertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 有 选 定 范围 内 的 数值 

属性 离散 化 ， 如果 为 True， 只 有 非 选 定 的 属性 将 离散 化 。 

makeBinary( 二 元 化 ): 将 结果 属性 二 元 化 。 

useBetterEncoding( 使 用 更 好 编码 ): 使 用 更 有 效 的 分 割 点 编码 。 

useBinNumbers( 使 用 箱 号 码 ): 使 用 箱 号 码 (例如 BXofY)， 而 不 是 离散 化 属性 范围 。 

useKononenko( 使 用 Kononenko): 使 用 Kononenko 的 MDL 判 据 。 如 果 设 置 为 

False， 则 使 用 Fayyad & Irani 判 据 。 


5) NominalToBinary 
NominalToBinary 过 滤器 将 全 部 标 称 属性 转换 成 二 元 的 数值 属性 。 如 果 类 别 属性 是 标 


称 型 ， 使 用 每 个 值 一 个 属性 的 方法 ， 将 个 值 的 属性 转换 成 个 二 元 属性 。 如 果 没 有 给 定 
-A 参数 ， 二 元 属性 将 保持 不 变 。 如 果 分 类 是 数值 型 ， 将 按照 Breiman 等 人 在 
“Classification and Regression Trees( 分 类 回归 树 )” 中 描述 的 方式 ， 创 建 大 1 个 新 的 二 元 属 


性 。 


即 考虑 类 别 平 均值 与 每 个 属性 值 的 关联 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e “binaryAttributesNominal( 标 称 型 二 元 属性 ): 结果 二 元 属性 是 否 为 标 称 型 。 

e transformAllValues( 转 换 全 部 值 ): 是 否 所 有 的 标 称 值 都 转换 为 新 属性 ， 不 只 是 超 
过 2 的 标 称 值 。 


有 监督 实例 过 滤器 


1) Resample 
Resample 过 滤器 通过 有 放 回 或 无 放 回 的 抽样 产生 数据 集 一 个 随机 子 样本 。 
必须 将 原始 数据 集 完 全 加 载 到 内 存 中 。 可 以 指定 生成 数据 集 的 实例 数量 。 该 数据 集 必 


须 有 标 称 型 的 类 别 属性 。 如 果 没有 ， 请 使 用 无 监督 版 本 。 该 过 滤器 可 在 子 样本 中 保持 分 类 
的 分 布 ， 或 使 分 类 分 布 偏向 均匀 分 布 。 当 使 用 于 批 模式 ( 即 FilteredClassifier)， 后 续 批 次 不 


通用 对 象 编辑 器 界面 说 明 如 下 。 
e “biasToUniformClass( 均 匀 分 类 偏 倚 ): 是 否 使 用 均匀 的 分 类 偏 傈 ， 其 值 为 0， 保 持 
原 分 类 分 布 ; 其 值 为 1， 确保 输 出 数据 的 分 类 分 布 是 均匀 的 。 


invertSelection( 反 选 ): 反 向 选择 ， 仅 用 于 不 替换 抽取 实例 。 
noReplacement( 无 放 回 ): 禁用 实例 放 回 抽样 。 
randomSeed( 随 机 种 子 ): 设置 子 采样 的 随机 数 种 子 。 
sampleSizePercent( 样 本 大 小 百分比 ): 子 样本 大 小 占 原始 集 的 百分比 。 

2) SpreadSubsample 

SpreadSubsample 过 滤器 产生 数据 集 的 随机 子 样 本 。 必 须 将 原始 数据 集 完 全 加 载 到 内 存 
中 。 此 过 滤器 允许 指定 最 稀有 与 最 常见 类 别 之 间 的 最 大 “spread”( 差 幅 )。 例 如 ， 可 以 指定 
分 类 频率 的 最 大 差异 为 2:1。 在 用 于 批 模 式 时 ， 后 续 批 次 不 能 重 采样 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ ”adjustWeights( 调 整 权重 ): 是 否 调整 实例 权重 ， 以 保持 每 个 分 类 的 总 权重 。 

e distributionSpread( 分 布 差 幅 ): 最 大 分 类 分 布 差 幅 (0 = 最 大 差 幅 ，1 = 均匀 分 布 ， 

10= 人 允许 分 类 之 间 最 大 比例 为 10:1)。 

e ”maxCount( 最 大 计数 ): 任意 分 类 值 的 最 大 计数 (0 = 无 限制 )。 

e ”randomSeed( 随 机 种 子 ): 设置 子 采样 的 随机 数 种 子 。 

3) StratifiedRemoveFolds 

StratifiedRemoveFolds 过 滤器 将 数据 集 作为 输入 ， 输 出 指定 折 数 的 交叉 验证 。 如 果 不 
希望 折 分 层 ， 请 使 用 无 监督 的 版 本 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ fold( 折 ): 选择 的 折 。 

e@ ”invertSelection( 反 选 ); 是 否 反 向 选择 。 

e ”numFolds( 折 数 )， 将 数据 集 分 割 为 折 的 数目 。 

e ”seed( 种 子 ): 打 乱 数据 集 顺序 的 随机 数 种 子 。 如 果 为 负数 ， 将 不 打 乱 顺序 。 
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分 类 算法 介绍 


Weka 的 分 类 算法 按照 其 功能 分 为 如 下 七 种 : bayes( 贝 叶 斯 )、functions( 功 能 )、lazy( 消 
极 )、meta( 元 )、misc( 杂 项 )、rules( 规 则 ) 和 trees( 树 )。 


bayes 


1) BayesNet 

BayesNet( 贝 叶 斯 网 络 ) 学 习 使 用 不 同 的 搜索 算法 和 质量 度量 。 

这 是 贝 叶 斯 网 络 分 类 器 的 基 类 。 提 供 的 数据 结构 (网 络 结构 、 条 件 概率 分 布 等 ) 和 贝 叶 

斯 网 络 学 习 算 法 的 常用 服务 ， 如 K2 和 B 算法 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

。 ”BIFFile(BIF 文件 ): 设置 BIF XML 格式 的 文件 名 称 。 原 来 学 习 而 得 的 贝 叶 斯 网 络 
可 以 采用 BIF 文件 存放 ， 从 数据 学 习 而 得 的 新 贝 叶 斯 网 络 可 以 与 BIF 文件 表示 的 
网 络 进行 比较 。 
debug( 测 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
estimator( 估 算 器 ): 选择 估算 器 算法 ， 以 寻找 贝 叶 斯 网 络 的 条 件 概率 表 。 目 前 支 
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持 的 估算 器 有 BayesNetEstimator、BMAEstimator、MultiNomialBMAEstimator、 
SimpleEstimator。 

searchAlgorithm( 搜 索 算法 ): 选择 用 于 搜索 网 络 结构 的 方法 。 目 前 支持 的 搜索 算 
法 有 GneticSearch 、HillClimber、K2、LAGDHillClimber、RepeatedHillClimber、 
SimaulatedAnnealing、TabuSearch、TAN。 

useADTree( 使 用 ADTree): 使 用 ADTree， 通 常会 减少 学 习 时 间 。 这 是 增加 计数 速 
度 的 数据 结构 ， 注 意 不 要 与 同名 分 类 器 混淆 。 然 而 ， 由 于 ADTrees 占用 大 量 内 
存 ， 内 存 可 能 会 出 现 紧 张 。 关 闭 此 选项 ， 使 用 较 少 内 存 ， 但 结构 学 习 算法 速度 较 
慢 。 默 认 使 用 ADTrees。 


2) NaiveBayes 
NaiveBayes( 朴 素 贝 叶 斯 分 类 器 ) 使 用 估算 器 类 。 基 于 对 训练 数据 的 分 析 ， 选 择 数字 估 
算 器 的 精度 值 。 出 于 这 个 原因 ， 分 类 器 不 是 UpdateableClassifier( 典 型 用 于 初始 化 为 零 个 训 


练 实例 )。 


如 果 需 要 使 用 UpdateableClassifier 功能 ， 使 用 NaiveBayesUpdateable 分 类 器 。 当 


采用 零 个 训练 实例 调用 buildClassifier 时 ，NaiveBayesUpdateable 分 类 器 对 数值 属性 的 默认 


精度 为 0. 


通用 
Dd 


1。 

对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 );: 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
displayModelInOldFormat( 旧 格式 的 显示 模式 ): 使 用 旧 格 式 的 模型 输出 。 当 分 类 
值 较 多 时 ， 使 用 旧 格 式 更 好 ; 当 分 类 值 较 少 并 且 属 性 很 多 ， 使 用 新 格式 更 好 。 
useKernelEstimator( 使 用 核 估算 器 ): 对 数值 属性 不 用 正 态 分 布 ， 而 使 用 核 估算 器 。 
useSupervisedDiscretization( 使 用 有 监督 离散 化 ): 使 用 有 监督 离散 化 将 数值 属性 转 


3) NaiveBayesMultinomial 
构建 并 使 用 多 项 式 朴素 贝 叶 斯 分 类 器 类 。 
此 分 类 器 的 核心 公式 如 下 。 


P[Cil 


D] = (PIDICi] x P[Ci]) /PID] 。〈 贝 叶 斯 规则 ) 


其 中 ，Ci 为 类 别 i，D 为 文档 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 


debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 

4) NaiveBayesMultinomialText 

处 理 文本 数据 的 多 项 式 朴素 贝 叶 斯 分 类 器 。 只 能 直接 操作 字符 串 属性 ， 也 接受 其 他 类 
型 的 输入 属性 ， 但 在 训练 和 分 类 中 忽略 之 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

LNorm(LNorm): 用 于 文件 长 度 规范 化 的 LNorm。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
lowercaseTokens( 标 记 小 写 ): 是 否 将 所 有 标记 转换 为 小 写 。 
IminWordFrequency( 最 低 单 词 频率 ): 忽略 训练 数据 中 出 现 次 数 低 于 最 低频 率 次 数 
的 全 部 单词 。 如 果 打 开 定 期 修剪 选项 ， 则 根据 该 值 对 字典 进行 修剪 。 

norm( 范 数 ): 规范 化 以 后 实例 的 范 数 。 


normalizeDocLength( 规 范 化 文档 长 度 ): 如 果 为 True， 则 根据 范 数 和 lnom 的 设 
置 ， 规 范 化 文档 长 度 。 

periodicPruning( 定 期 修剪 ): 修剪 词典 里 低频 词 条 的 频率 (实例 的 数量 )，0 表示 不 
进行 修剪 ， 正 整数 n 表示 每 经 过 个 实例 后 进行 修剪 。 

stemmer( 词 干 分 析 器 ): 用 于 单词 的 词 干 提取 算法 。 

stopwords( 停 用 词 ): 包含 停 用 词 的 文件 ， 如 果 为 目录 ， 则 使 用 默认 值 。 
tokenizer( 分 词 器 ): 用 于 字符 串 的 分 词 算法 。 

useStoplist( 忽 略 停 用 词 列 表 ): 如 果 设 置 为 True， 忽 略 所 有 的 停 用 词 列表 。 
useWordFrequencies( 使 用 词 频 ): 使 用 词 频 ， 而 不 是 表示 词 的 二 元 包 。 


5) NaiveBayesMultinomialUpdateable 


构建 
此 分 
P[Ci 
其 中 ,Ci 
本 算 
通用 
debu 


并 使 用 多 项 式 朴素 贝 叶 斯 分 类 器 类 。 

类 器 的 核心 公式 : 

D]= (PIDICi] x P[Ci])/P[ID]  〈 贝 叶 斯 规则 ) 

为 分 类 i，D 为 文档 。 

法 的 增强 版 本 。 

对 象 编辑 器 界面 说 明 如 下 。 

g( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 


6) NaiveBayesUpdateable 


使 用 
通用 


估算 器 类 的 朴素 贝 叶 斯 分 类 器 类 ， 是 NaiveBayes 的 可 更 新 版 本 。 

用 零 个 训练 实例 调用 buildClassifier 时 ， 该 分 类 器 对 数值 属性 的 默认 精度 为 0.1。 
对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
displayModelInOldFormat( 旧 格式 的 显示 模式 ): 使 用 旧 格 式 的 模型 输出 。 当 分 类 
值 较 多 时 ， 使 用 旧 格式 更 好 ， 当 分 类 值 较 少 并 且 属 性 很 多 ， 使 用 新 格式 更 好 。 
useKernelEstimator( 使 用 核 估算 器 ): 对 数值 属性 不 用 正 态 分 布 ， 而 使 用 核 估 算 器 。 
useSupervisedDiscretization( 使 用 有 监督 离散 化 ): 使 用 有 监督 离散 化 将 数值 属性 转 
换 为 标 称 属性 。 


functions 
functions 类 别 较为 特殊 ， 它 包括 各 类 分 类 器 ， 其 数学 公式 可 以 用 自然 而 合理 的 方式 写 


出 。 其 他 方法 ， 如 决策 树 和 决策 规则 ， 则 不 能 自然 而 合理 地 写 出 数学 公式 ， 也 有 例外 ， 


Naive bayes 分 类 器 也 有 一 个 简单 的 数学 公式 。 

1) GaussianProcesses 

实现 不 用 超 参 数 整定 的 高 斯 回归 处 理 。 为 了 更 容易 选择 一 个 适当 的 噪声 级 别 ， 如 果 打 
开 规 范 化 /标准 化 ， 本 实现 应 用 规范 化 /标准 化 到 目标 属性 以 及 其 他 属性 。 缺 失 值 蔡 代为 全 


局 均值 / 模 值 (mean/mode)。 标 称 属性 都 转换 成 二 元 属性 。 注 意 ， 如 果 核 使 用 CachedKernel 


实现 ， 则 关闭 核 缓存 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 
debug( 调 试 )， 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
filterType( 过 滤器 类 型 )， 确 定数 据 是 否 转换 以 及 如 何 转换 。 
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e ”kernel( 核 ): 使 用 的 核 。 
e@ ”noise( 噪 声 ): 高 斯 噪声 级 别 。 在 目标 完成 规范 化 /标准 化 / 左 不 变 之 后 ， 添 加 到 协 方 
差 矩阵 的 对 角 。 
2) LinearRegression 
使 用 线性 回归 预测 的 类 。 模 型 选择 使 用 Akaike 准则 ， 能 够 处 理 加 权 实 例 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
ee attributeSelectionMethod( 属 性 选择 方法 ): 设置 选择 属性 所 使 用 的 方法 ， 用 于 线性 
回归 。 可 用 的 方法 有 : 不 选择 属性 、 使 用 M5 方法 选择 属性 (依次 删除 标准 化 系数 
最 小 的 属性 ， 直 到 观察 Akaike 信息 量 准则 所 给 出 的 误差 估计 没有 得 到 改善 为 
止 )， 这 是 使 用 Akaike 信息 量度 量 的 贪 禁 选择 法 。 
debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
eliminateColinearAttributes( 消 除 共 线 性 属性 ): 消除 共 线性 属性 。 
minimal( 最 低 限 ): 如 果 启 用 ， 则 丢弃 数据 集 头 、 均 值 和 标准 差 ， 以 节省 内 存 ， 该 
模型 也 不 能 打印 出 来 。 
@ Tidge( 岭 ): 岭 参数 的 值 。 
3) Logistic 
构建 和 使 用 带 岭 估算 器 的 多 项 式 logistic 回归 模型 类 。 
然而 ， 与 leCessie 和 van Houwelingen(1992) 的 论文 相 比 ， 做 了 一 些 修 改 : 
如 果 有 m 个 属性 、n 个 实例 的 个 分 类 ， 要 计算 的 参数 矩阵 B 将 是 一 个 m*(k-1) 
矩阵 。 
除 最 后 类 别 之 外 ， 第 j 个 类 别 的 概率 为 
Pj(Xi) = exp(XiBJ)/((sum[j=1..(k—1)]Jexp(X1*B)))+1) 
最 后 类 别 的 概率 为 : 
1- (sum[j=1..(k—1)]PjCXi)) 
= 1/((sumlj=1..(k-1)Jexp(Xi*Bj)+1) 
因此 ，( 负 ) 多 项 式 对 数 似 然 为 
工 = -sum[i=1..n]{ 
sum[j=1.(k-DJCYij* In(PjCXi))) 
+(1 - Gum[j=1.(kcDTY) 
* In(1 = sum[j=1..(k-1)]Pj(X))) 
} +ridge * (B^I) 
为 了 找到 最 小 化 工 的 矩阵 B， 使 用 拟 牛 顿 法 (Quasi-Newton Method) 搜 索 m*(k-1) 变 量 
的 优化 值 。 请 注意 ， 在 使 用 优化 过 程 以 前 ， 先 将 矩阵 B“ 挤 ”为 m*(k-1) 向 量 。 对 于 优化 
过 程 的 细节 ， 请 查看 weka.core.Optimization 类 。 
虽然 原 Logistic 回归 不 处 理 实例 权重 ， 这 里 对 原 算法 做 了 一 点 点 修改 ， 使 算法 能 处 理 
实例 权重 。 
注意 ， 使 用 ReplaceMissingValuesFilter 过 滤器 蔡 换 缺 失 值 ， 使 用 NominalToBinaryFilter 
过 滤器 将 标 称 属性 转换 为 数值 属性 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 


debug( 调 试 ): 输出 调试 信息 到 控制 台 。 

maxIts( 最 大 友 代 次 数 ): 要 执行 的 最 大 友 代 次 数 。 

ridge( 岭 ): 设置 对 数 似 然 的 岭 值 。 

useConjugateGradientDescent( 使 用 共 思 梯 度 下 降 ): 使 用 共 轿 梯度 下 降 ， 而 非 


BFGS 更 新 。 对 于 有 很 多 参数 的 问题 速度 更 快 。 

4) MultilayerPerceptron 

一 种 使 用 反 向 传播 算法 对 实例 进行 分 类 的 分 类 器 。 

该 网 络 可 以 用 手工 构建 、 用 算法 构建 或 两 者 都 用 。 训 练 过 程 中 ， 也 可 以 对 网 络 进行 监 
视 和 更 改 。 该 网 络 中 的 节点 全 都 是 S 形 的 ， 除 了 类 别 属性 是 数值 型 这 种 情况 下 ， 输 出 节点 
成 为 unthresholded 线性 单位 之 外 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e GUI( 图 形 用 户 界面 ): 带 出 一 个 GUI 界面 。 可 以 在 培训 过 程 中 ， 人 允许 暂停 和 改变 

神经 网 络 。 


全 
全 


* 
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人 


全 


左 击 添加 一 个 节点 (将 自动 选择 该 节点 ， 确 保 没 有 选择 其 他 节点 )。 

要 选择 一 个 节点 ， 当 没有 选中 其 他 节点 时 ， 单 击 该 节点 ; 否则 在 单 击 的 同时 
按 住 Ctr 键 (切换 节点 选中 或 未 选中 )。 

要 连接 节点 ， 首 先 选择 的 起 始 节 点 ， 然 后 单 击 结束 节点 或 在 空白 区 域 (创建 一 
个 与 选 定 节 点 连接 的 新 节点 )。 连 接 后 ， 节 点 的 选择 状态 将 保持 不 变 。 ( 注 
意 : 这 是 直接 连接 ， 两 个 节点 之 间 的 连接 只 能 建立 一 次 ， 某 些 无 效 连接 将 无 
法 进行 。) 

要 删除 一 个 连接 ， 选 择 一 个 连接 的 节点 ， 然 后 右 击 其 他 节点 (删除 连接 时 ， 不 
关心 选中 的 节点 究竟 是 开始 节点 还 是 结束 节点 ， 结 果 都 一 样 )。 

要 删除 一 个 节点 ， 当 没有 选中 其 他 节点 (包括 它 自己 )， 右 击 它 (这 也 会 删除 它 
的 所 有 连接 )。 

要 取消 选择 一 个 节点 ， 可 以 按 住 Ctrl 键 同 时 单 击 它 ， 或 者 右 击 空白 处 。 

左边 的 标签 提供 原始 输入 。 

红色 节点 是 隐藏 层 。 

橙色 节点 是 输出 节点 。 

右边 标签 显示 输出 节点 代表 的 分 类 。 请 注意 ， 数 值 分 类 的 输出 节点 将 自动 成 
为 unthresholded 线性 单位 。 

只 能 在 网 络 没 有 运行 的 时 候 修改 神经 网 络 ， 这 条 规矩 也 适用 于 在 控制 面板 上 
修改 学 习 速 率 等 字段 。 

用 户 可 以 在 任何 时 间接 受 网 络 (已 训练 ) 完 成 。 

网 络 在 开始 时 自动 暂停 。 

运行 中 会 指示 网 络 处 于 哪个 epoch， 以 及 该 epoch 的 大 致 错误 率 是 多 少 。 该 
错误 率 的 值 是 根据 网 络 变更 后 计算 而 得 。 

一 旦 网 络 完成 训练 会 再 次 暂停 ， 等 待 用 户 接受 或 再 次 启动 训练 。 


需要 注意 的 是 ， 如 果 不 设置 GUI， 网 络 就 不 要 求 交 互 。 
e ”autoBuild( 自 动 构建 ): 在 网 络 中 添加 并 连接 隐藏 层 。 
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e@ ”debug( 调 试 );: 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 

e@ ”decay( 衰 减 ); 将 导致 学 习 速 率 降 低 。 用 开始 学 习 速率 除 以 epoch 数 ， 以 确定 当前 
的 学 习 速 率 应 该 为 多 少 ， 有 可 能 有 助 于 阻止 网 络 偏离 目标 输出 ， 以 及 改善 整体 性 
能 。 注 意 ， 学 习 速率 的 衰减 并 不 会 显示 在 GUI 中 ， 显 示 的 只 有 原来 的 学 习 速 率 。 
如 果 在 GUI 中 改变 学 习 速 率 ， 则 视 为 开始 的 学 习 速 率 。 

。 hiddenLayers( 隐 藏 层 ): 定义 神经 网 络 的 隐藏 层 ， 为 一 个 用 去 号 分 隔 的 正 整数 列 
表 。1 代表 一 个 隐藏 层 ，0 代表 没有 隐藏 层 。 如 果 设 置 autoBuild 选项 ， 本 选项 才 
可 用 。 支 持 通配符 值 : 'a' = (attribs + classes) / 2, 'i' = attribs, '0' = classes , 't' = attribs 
十 classes。 
learningRate( 学 习 速 率 ): 更 新 权重 的 量 。 
momentum( 动 量 ): 在 更 新 过 程 中 施加 于 权重 的 动量 。 
nominalToBinaryFilter( 标 称 到 二 元 过 滤器 ): 用 过 滤器 对 实例 进行 预 处 理 。 如 果 数 
据 中 有 标 称 属性 ， 将 有 助 于 提高 性 能 。 

e ”normalizeAttributes( 规 范 化 属性 ): 将 属性 规范 化 ， 这 将 有 助 于 提高 网 络 的 性 能 。 
不 要 求 类 别 属性 一 定 为 数值 型 ， 也 将 标 称 属性 规范 化 (通过 标 称 到 二 元 过 滤器 )， 
使 标 称 值 在 -1 一 1 之 间 。 

e normalizeNumericClass( 规 范 化 数值 类 别 ): 如 果 类 别 属 性 为 数值 型 ， 则 将 分 类 规范 
化 。 这 将 有 助 于 改善 网 络 的 性 能 ， 规 范 化 类 别 值 在 -1 一 1 之 间 。 请 注意 ， 这 仅仅 
是 在 内 部 进行 ， 输 出 将 按 比 例 缩减 至 原来 的 范围 。 

e@ ”reset( 重 置 ): 允许 网 络 重 置 为 较 低 的 学 习 速 率 。 如 果 网 络 偏离 要 求 ， 将 会 自动 重 
置 网 络 为 较 低 的 学 习 速率 ， 并 再 次 开始 训练 。 此 选项 仅 适 用 于 没有 设置 GUI 选项 
时 。 注 意 ， 如 果 网 络 偏离 但 不 允许 重 置 ， 训 练 过 程 将 失败 并 返回 一 个 错误 消息 。 

e@ seed( 种 子 ): 用 于 初始 化 随机 数 发 生 器 的 种 子 。 随 机 数 用 于 设置 节点 之 间 连 线 的 
初始 权重 ， 并 用 于 对 训练 数据 重新 排序 。 

e “trainingTime( 训 练 时 间 ): 训练 通过 的 epochs 数量 。 如 果 验 证 集 非 零 ， 则 可 以 提早 
终止 网 络 。 

e validationSetSize( 验 证 集 大 小 ): 验证 集 的 百分比 大 小 。 本 次 训练 将 继续 进行 ， 直 
到 验证 集 上 观察 到 的 错误 越 来 越 粮 ， 或 者 训练 时 间 到 为 止 。 

如 果 设 置 为 零 ， 则 不 使 用 验证 集 ， 网 络 将 训练 指定 数量 的 epochs。 

e ”validationThreshold( 验 证 阔 值 ): 用 于 终止 验证 测试 。 这 里 的 值 决 定 了 在 训练 终止 
前 ， 可 以 容忍 一 连 多 少 次 的 变 得 更 糟 的 验证 集 错误 。 

5) SGD 

实现 学 习 各 种 线性 模型 (二 元 分 类 SVM、 二 元 分 类 logistic 回归 分 析 和 线性 回归 ) 的 随 

机 梯度 下 降 (Stochastic Gradient Descent，SGD)。 在 全 局 范围 内 蔡 换 全 部 缺失 的 标 称 属性 
值 ， 并 将 其 转换 成 二 元 属性 。SGD 标准 化 全 部 属性 ， 所 以 在 输出 中 的 系数 基于 规范 化 的 
数据 。 

对 于 数值 类 别 属性 ， 必 须 使 用 平方 损失 函数 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

edebug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
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dontNormalize( 不 规范 化 ): 关闭 规范 化 。 

dontReplaceMissing( 不 蔡 换 缺失 值 ): 关闭 全 局 替换 缺失 值 。 

epochs(epochs): 批 学 习 中 执行 的 epochs 数量 。 总 和 迭代 次 数 为 epochs * 实例 数量 。 
lambda(^): 正规 化 常数 ， 默 认 值 为 0.0001。 

leamingRate( 学 习 速 率 ): 学 习 速率 。 如 果 关 闭 规范 化 (对 于 流 式 数据 将 自动 关 
闭 )， 那 么 默认 学 习 速 率 需 要 减少 (尝试 0.0001)。 

lossFunction( 损 失 函 数 ): 使 用 的 损失 函数 。Hinge 损失 (SVM)、log 损失 (logistic 回 
归 ) 或 平方 损失 (回归 )。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 


6) SGDText 

实现 对 文本 数据 的 线性 二 元 分 类 SVM 或 二 元 分 类 logistic 回归 学 习 的 随机 梯度 下 降 。 
仅 直 接 操作 字符 串 属性 ， 接 受 其 他 类 型 的 输入 属性 ， 在 训练 和 分 类 中 却 忽略 之 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 


LNorm(LNorm): 用 于 文件 长 度 规范 化 的 LNorm。 

debug( 调 试 ): 如 果 设置 为 Tme， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
epochs(epochs): 批 学 习 中 执行 的 epochs 数量 。 总 迭代 次 数 为 epochs * 实例 数量 。 
lambda(X): 正规 化 常数 ， 默 认 值 为 0.0001。 

learmingRate( 学 习 速 率 ): 学 习 速率 。 

lossFunction( 损 失 函 数 ): 使 用 的 损失 函数 。Hinge 损失 (SVM)、log 损失 (logistic 回 
归 ) 或 平方 损失 (回归 )。 

lowercaseTokens( 标 记 小 写 ): 是 否 将 所 有 标记 转换 为 小 写 。 
minWordFrequency( 最 低 单词 频率 ): 忽略 训练 数据 中 出 现 次 数 低 于 最 低频 率 次 数 
的 全 部 单词 。 如 果 打 开 定 期 修剪 选项 ， 则 根据 该 值 对 字典 进行 修剪 。 

norm( 范 数 ): 规范 化 以 后 实例 的 范 数 。 

normalizeDocLength( 规 范 化 文档 长 度 ): 如 果 为 True， 则 根据 范 数 和 lInorm 的 设 
置 ， 规 范 化 文档 长 度 。 

outputProbsForSVM(SVM 输出 概率 ): 拟 合 logistic 回归 至 SVM 输出 ， 以 生成 概 
率 估 计 。 

periodicPruning( 定 期 修剪 ): 修剪 词典 里 低频 词 条 的 频率 (实例 的 数量 )，0 表示 不 
进行 修剪 ， 正 整数 n 表示 每 经 过 n 个 实例 后 进行 修剪 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 

stemmer( 词 干 分 析 器 ): 用 于 单词 的 词 干 提取 算法 。 

stopwords( 停 用 词 ): 包含 停 用 词 的 文件 ， 如 果 为 目录 ， 则 使 用 默认 值 。 
tokenizer( 分 词 器 ): 用 于 字符 串 的 分 词 算法 。 

useStoplist( 忽 略 停 用 词 列 表 ): 如 果 设置 为 Tme， 忽 略 所 有 的 停 用 词 列表 。 
useWordFrequencies( 使 用 词 频 ): 使 用 词 频 ， 而 不 是 表示 词 的 二 元 包 。 


7) SimpleLinearRegression 
一 个 简单 的 线性 回归 学 习 模型 。 选 择 导 致 平方 误差 最 低 的 属性 ， 不 允许 有 缺失 值 ， 只 
能 处 理 数值 属性 。 
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通 上 


3 对象 编辑 器 界面 说 明 如 下 。 


debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 

8) SimpleLogistic 

构建 线性 logistic 回归 模型 的 分 类 器 。 带 简单 回归 函数 的 LogitBoost 作为 基本 学 习 器 ， 
用 于 拟 合 logistic 模型 。LogitBoost 迭代 执行 的 最 佳 次 数 是 使 属性 选择 自动 化 交叉 验证 。 


通 上 


对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
errorOnProbabilities( 错 误 概 率 ): 使 用 错误 概率 作为 错误 度量 ， 确 定 最 佳 的 
LogitBoost 迭代 次 数 。 如 果 置 位 ， 选 择 LogitBoost 迭代 次 数 的 根据 是 ， 均 方 根 误 
差 最 小 化 (无 论 是 训练 集 ， 还 是 交叉 验证 ， 取 决 于 useCrossValidation 选项 )。 
heuristicStop( 启 发 式 停止 ): 如 果 heuristicStop>0， 则 启用 交叉 验证 LogitBoost 进 
代 次 数 的 启发 式 贪 禁 停止 算法 。 这 意味 着 ， 在 最 后 的 heuristicStop 迭代 中 ， 如 果 
没有 达到 错误 的 新 最 小 值 ， 则 停止 LogitBoost。 建 议 使 用 此 启发 式 选项 ， 它 提供 
极 快 的 速度 ， 尤 其 是 针对 小 数据 集 。 默 认 值 为 50。 
maxBoostingIterations(LogitBoost 最 大 迭代 次 数 ):， 设置 LogitBoost 的 最 大 迭代 次 
数 。 默 认 值 是 500， 对 于 非常 小 /大 的 数据 集 ， 将 该 值 设 为 较 低 / 较 高 可 能 更 好 些 。 
numBoostingIterations(LogitBoost 迭代 次 数 ): 设置 LogitBoost 的 固定 迭代 次 数 。 
如 果 大 于 或 等 于 0， 执 行 设置 的 LogitBoost 迭代 次 数 。 如 果 小 于 0， 该 数字 用 于 
交叉 验证 ， 或 作为 训练 集 的 停止 判 据 (根据 useCrossValidation 选项 的 值 而 定 )。 
useAIC( 使 用 AIC): 使 用 AIC 以 确定 何 时 停止 LogitBoost 迭代 (而 不 是 交叉 验证 或 
训练 误差 )。 

useCrossValidation( 使 用 交叉 验证 ): 设置 LogitBoost 迭代 次 数 是 否 要 经 交叉 验 
证 ， 或 对 训练 集 使 用 停止 判 据 。 如 果 没 有 设置 ( 且 没 有 给 定 固 定 迭 代 次 数 )， 
LogitBoost 迭代 次 数 用 于 最 大 限度 地 减少 在 训练 集 上 的 错误 ( 误 分 错误 或 概率 错误 
取决 于 errorOnProbabilities 选项 )。 

weightTrimBeta( 权 重 裁剪 太 : 设置 在 LogitBoost 中 权重 裁剪 所 使 用 的 B 值 。 只 有 在 
前 一 次 迭代 中 带 有 (1-B% 权 重 的 实例 能 在 下 一 次 迭代 中 使 用 。 设 置 为 0， 不 进行 
权重 裁剪。 默认 值 为 0。 


9) SMO 

支持 向 量 分 类 器 的 John Platt 序列 最 小 优化 算法 训练 实现 。 

实现 对 全 部 缺失 值 进行 全 局 蔡 代 ， 并 将 标 称 属性 转换 成 二 元 属性 。 默 认 情 况 下 ， 规 范 
化 全 部 属性 。 在 这 种 情况 下 ， 输 出 的 系数 是 根据 规范 化 数据 ， 而 不 是 原始 数据 ， 这 对 于 解 


释 分 类 器 很 重要 。 


使 用 


成 对 的 分 类 (1 对 1， 且 logistic 模型 按照 Hastie 和 Tibshirani 1998 年 的 模型 进行 构 


建成 耦合 对 )， 以 解决 多 类 别 (multi-class) 问 题 。 
为 了 获得 正确 的 概率 估计 ， 使 用 将 logistic 回归 模型 拟 合 至 支持 向 量 机 输出 的 选项 。 


在 多 类 别 
注意 


通 上 


情况 下 ， 预 测 概率 结合 使 用 Hastie 和 Tibshirani 的 成 对 耦合 方法 。 
: 为 了 提高 速度 ， 应 在 处 理 SparseInstances( 稀 朴实 例 ) 时 关闭 规范 化 。 


对 象 编辑 器 界面 说 明 如 下 。 


buildLogisticModels( 构 建 Logistic 模型 ): 是 否 将 logistic 模型 拟 合 至 输出 (正确 的 
概率 估计 )。 

c( 参 数 C): 复杂 参数 C。 

checksTurnedOfK( 关 闭 检查 ): 打开 耗 时 检查 ， 请 谨慎 使 用 。 
debug( 调 试 ): 如 果 设 置 为 Tme， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
epsilon(epsilon): 舍 入 误差 的 epsilon( 不 应 该 改变 )。 

filterType( 过 滤器 类 型 )， 确 定数 据 是 否 转 换 以 及 如 何 转换 。 

kernel( 核 ): 使 用 的 核 。 

numFolds( 折 数 ): 用 于 logistic 模型 生成 训练 数据 的 交叉 验证 的 折 数 (-1 表示 使 用 
训练 数据 )。 

IandomSeed( 随 机 种 子 ): 交叉 验证 的 随机 数 种 子 。 

toleranceParameter( 容 差 参数 ): 容 差 参 数 (不 应 该 改变 )。 


10) SMOreg 
SMOreg 实现 了 支持 向 量 机 回归 ， 使 用 各 种 算法 可 以 学 习 到 参数 ， 通 过 设置 
RegOptimizer 来 选择 算法 。 最 流行 的 算法 (RegSMOImproved) 由 Shevade、Keerthi 等 人 给 


通用 


出 ， 这 是 默认 的 RegOptimizer。 


对 象 编辑 器 界面 说 明 如 下 。 

c( 参 数 C): 复杂 参数 C。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
filterType( 过 滤器 类 型 );， 确定 数据 是 否 转换 以 及 如 何 转换 。 
kernel( 核 ): 使 用 的 核 。 

regOptimizer: 学 习 算法 。 


11) VotedPerceptron 

实现 由 Freund 和 Schapire 的 表决 感知 算法 。 全 局 蔡 代 全 部 缺失 值 ， 并 将 标 称 属性 转换 
成 二 元 属性 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 


debug( 调 试 ): 如 果 设置 为 Tme， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
exponent( 指 数 ): 多 项 式 核 的 指数 。 

maxK( 最 大 K): 感知 器 的 最 大 数量 改变 。 

numIterations( 和 迭代 次 数 ): 要 执行 的 欠 代 次 数 。 

seed( 种 子 ): 随机 数 发 生 器 的 种 子 。 


1) IBk 
k- 最 近邻 分 类 器 。 可 以 在 交 义 验证 的 基础 上 选择 合适 的 KK 值 ， 也 可 以 加 距离 权重 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

KNN(k-NN): 使 用 的 邻居 数量 。 

crossValidate( 交 叉 验 证 ): 是 否 使 用 hold-one-out 交叉 验证 来 选择 最 佳 的 k 值 。 
debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
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distanceWeighting( 距 离 加 权 ): 使 用 距离 加 权 方 法 。 

ImeanSquared( 均 方 误差 ); 当 交 叉 验 证 回归 问题 时 ， 是 否 使 用 均 方 误差 ， 而 不 是 使 
用 平均 绝对 误差 。 

nearestNeighbourSearchAlgorithm( 最 近邻 搜索 算法 ): 使 用 的 最 近邻 搜索 算法 ， 默 
认为 : weka.core.neighboursearch.LinearNNSearch。 

windowSize( 窗 口 大 小 ): 训练 池 允 许 的 实例 的 最 大 数量 。 如 果 增 加 的 新 实例 高 于 
此 值 ， 将 导致 日 实例 被 删除 。 值 0 表示 不 限制 训练 实例 的 数量 。 


2) KStar 
KStar 是 基于 实例 的 分 类 器 ， 其 测试 实例 类 以 类 似 于 它 的 训练 实例 类 为 基础 ， 有 一 些 
类 似 的 功能 。 它 不 同 于 其 他 基于 实例 的 学 习 ， 因 为 它 使 用 基于 灼 距离 函数 。 


通用 
Dd 
. 
Dd 


对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
entropicAutoBlend( 坑 自动 融合 ): 是 否 使 用 基于 灼 融合 。 
globalBlend( 全 局 融合 ): 全 局 融合 的 参数 ， 值 限制 为 [0,100]。 
missingMode( 缺 失 模 式 ): 确定 如 何 处 理 缺少 属性 值 。 


3) LWL 

局 部 加 权 学 习 。 使 用 基于 实例 的 算法 分 配 实例 权重 ， 然 后 将 权重 用 于 指定 的 
WeightedInstancesHandler( 加 权 实 例 处 理 程序 )。 

可 以 用 于 分 类 (如 使 用 朴素 贝 叶 斯 ) 或 回归 (如 使 用 线性 回归 )。 


通用 
Dd 


对 象 编辑 器 界面 说 明 如 下 。 

KNN(k-NN): 使 用 的 邻居 数量 ， 用 于 确定 加 权 函 数 的 宽度 ，<= 0 指 全 部 邻居 。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug (调试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
nearestNeighbourSearchAlgorithm( 最 近邻 搜索 算法 ): 使 用 的 最 近邻 搜索 算法 ， 默 
认为 LinearNN。 

weightingKemel( 加 权 核 ): 确定 加 权 函 数 。0 = 线性 ，1= Epnechnikov ，2= 
Tricube，3= Inverse，4 = 高 斯 ，5= 常 数 。 默 认为 : 0= 线 性 )。 


meta 


1) AdaBoostM1 


使 用 


通常 


通用 


Adaboost 的 M1 方法 ， 提 升 标 称 型 分 类 的 分 类 器 类 。 只 能 处 理 标 称 型 分 类 的 问 
会 显 着 提高 性 能 ， 但 有 时 会 过 拟 合 。 

对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
numlterations( 迭 代 次 数 ):， 要 执行 的 迭代 次 数 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 

useResampling( 使 用 重 采 样 ): 是 否 使 用 重 采 样 来 蔡 代 重新 加 权 。 
weightThreshold( 权 重 阔 值 ): 权重 修剪 的 权重 阔 值 。 


2) AdditiveRegression 
一 种 元 分 类 器 ， 增 强 了 回归 基 分 类 器 的 性 能 。 每 一 次 迭代 拟 合 上 一 次 和 欠 代 的 分 类 器 遗 
留 的 残 差 模型 。 通 过 增加 每 个 分 类 器 的 预测 来 完成 预测 。 减 少 收缩 率 (学 习 率 ) 参 数 可 以 防 
止 过 度 拟 合 ， 并 得 到 平滑 的 效果 ， 但 增加 了 学 习 时 间 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
numlterations( 迭 代 次 数 ):， 要 执行 的 迭代 次 数 。 
shrinkage( 收 缩 率 ): 收缩 速率 。 较 小 的 值 有 助 于 防止 过 度 拟 合 ， 并 得 到 平滑 的 效 
果 ( 但 增加 学 习 时 间 )。 默 认 值 =1.0， 即 不 收缩 。 
3) AttributeSelectedClassifier 
先 通 过 属性 选择 ， 减 少 训练 和 测试 数据 的 维度 ， 然 后 再 传递 给 分 类 器 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
@ debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
e ”evaluator( 评 估 器 ): 设置 使 用 的 属性 评估 器 。 该 评估 器 在 属性 选择 阶段 使 用 ， 在 
调用 分 类 器 之 前 。 
e ”search( 搜 索 ): 设置 搜索 方法 。 该 搜索 方法 在 属性 选择 阶段 使 用 ， 在 调用 分 类 器 之 前 。 
4) Bagging 
减少 方差 的 装 袋 (bagging) 分 类 器 类 。 基 于 学 习 器 ， 能 完成 分 类 和 回归 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e@ ”bagSizePercent( 袋 大 小 百分比 ): 每 个 袋 的 大 小 ， 为 训练 集 大 小 的 百分比 。 
calcOutOfBag( 计 算 袋 外 误差 );， 是 否 计算 袋 外 误差 (out-of-bag error，OOB Er)。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
debug( 调 试 ): 如 果 设置 为 Tme， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
numExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 (ensemble) 的 执行 槽 的 数量 (线程 )。 
numlterations( 迭 代 次 数 )， 要 执行 的 迭代 次 数 。 
e@ ”seed( 种 子 ): 使 用 的 随机 数 种 子 。 
S) ClassificationViaRegression 
使 用 回归 方法 完成 分 类 的 类 。 二 元 化 类 别 属性 ， 并 为 每 一 个 类 值 建立 一 个 回归 模型 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
edebug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
6) CostSensitiveClassifier 
一 种 元 分 类 器 ， 其 基 分 类 器 对 成 本 敏感 。 有 两 种 方法 可 用 于 引入 成 本 灵敏 度 : 根据 分 
配给 每 个 分 类 的 总 成 本 ， 重 新 加 权 训 练 实例 ; 根据 最 低 的 预期 误 判 成 本 (而 不 是 最 有 可 能 的 
分 类 ) 预 测 分 类 。 通 过 使 用 装 袋 分 类 器 ， 以 改善 基 分 类 器 的 概率 估计 ， 通 常 能 够 提高 性 能 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
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costMatrix( 成 本 矩阵 ): 明确 设置 成 本 和 矩阵。 如 果 将 costMatrixSource 属性 设置 为 
Supplied( 提 供 )， 就 要 使 用 该 矩阵 。 

costMatrixSource( 成 本 和 矩阵 源 ): 设置 获取 成 本 矩阵 的 来 源 。 有 两 个 选项 可 用 : 一 
是 使 用 明确 提供 的 成 本 矩阵 (设置 costMatrix 属性 )， 二 是 在 需要 时 加 载 一 个 成 本 
和 矩阵 文件 (该 文件 会 从 由 onDemandDirectory 属性 设置 的 目录 进行 加 载 ， 并 命名 为 
relation name.cost)。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
minimizeExpectedCost(): 设置 是 否 使 用 最 低 预 期 成 本 标准 。 如 果 设置 为 False， 根 
据 分 配给 每 个 分 类 的 成 本 ， 重 新 对 训练 数据 进行 加 权 。 如 果 为 True， 则 使 用 最 
低 的 预期 成 本 标准 。 

onDemandDirectory( 按 需 目录 ): 设置 要 加 载 的 成 本 文件 所 在 目录 。 此 选项 用 于 当 
costMatrixSource 选项 设置 为 On Demand( 按 需 ) 的 时 候 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 


7) CVParameterSelection 


通过 任意 分 类 器 的 交叉 验证 ， 完 成 参数 选择 的 类 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

CVParameters(CV 参数 ): 设置 方法 的 配置 参数 ， 都 可 以 由 交叉 验证 进行 设置 。 
每 个 字符 串 的 格式 应 该 是 : 

参数 字符 下 界 上 界 步 数 (param_ char lower bound upper bound number of steps) 
例如 ， 从 1 到 10 增 量 为 1， 搜 寻 参 数 -P: 

P1010 


e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

。 ”debug( 调 试 );: 如 果 设置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
e ”numFolds( 折 数 )， 获取 用 于 交叉 验证 的 折 数 。 

eseed( 种 子 ): 使 用 的 随机 数 种 子 。 

8) FilteredClassifier 


对 通过 任意 过 滤器 传递 数据 进行 操作 的 任意 分 类 器 类 。 与 分 类 器 一 样 ， 过 滤器 结构 完 
全 基于 训练 数据 ， 过 滤器 处 理 测试 实例 但 不 改变 其 结构 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug( 调 试 ); 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
filter( 过 滤器 ): 要 使 用 的 过 滤器 。 


9) LogitBoost 
执行 附加 logistic 回归 的 类 。 
该 类 所 进行 分 类 是 使 用 回归 方法 为 基础 的 学 习 ， 并 能 处 理 多 分 类 问题 。 


能 进 


通 / 


行 有 效 的 内 部 交叉 验证 ， 以 确定 合适 的 迭代 次 数 。 


对 象 编辑 器 界面 说 明 如 下 。 


classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 


likelihoodThreshold( 似 然 阔 值 ): 提高 似 然 性 的 阔 值 。 

numFolds( 折 数 ): 内 部 交叉 验证 的 折 数 。 默 认为 0， 表示 不 进行 交叉 验证 。 
numlterations( 迭 代 次 数 ): 要 执行 的 迭代 次 数 。 

numRuns( 运 行 次 数 ): 内 部 交叉 验证 的 运行 次 数 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 

shrinkage( 收 缩 率 ): 收缩 率 参数 。 使 用 较 小 的 值 (如 0.1) 减 少 过 度 拟 合 。 
useResampling( 使 用 重 采 样 ): 是 否 使 用 重 采样 来 替代 重新 加 权 。 
weightThreshold( 权 重 阔 值 ); 权重 修剪 的 权重 阔 值 (为 加 快 学 习 过 程 减少 到 90)。 


10) MultiClassClassifier 


一 种 
出 代码 进 
通用 


元 分 类 器 ， 带 2 级 分 类 器 处 理 多 分 类 数据 集 。 该 分 类 器 也 能 够 为 提高 精度 ， 对 输 
行 纠 错 。 

对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug( 调 试 );: 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
method( 方 法 ): 设置 将 多 分 类 问题 转化 成 几 个 2 级 分 类 问题 所 使 用 的 方法 。 
randomWidthFactor( 随 机 宽度 系数 ): 设置 使 用 随机 码 时 的 宽度 乘 子 。 所 生成 的 代 
码 数量 因此 需 与 分 类 数量 进行 数 乘 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 

usePairwiseCoupling( 使 用 成 对 耦合 ): 使 用 成 对 耦合 ( 仅 对 1 对 1 有 效 )。 


11) MultiClassClassifierUpdateable 
一 种 元 分 类 器 ， 带 2 级 分 类 器 处 理 多 分 类 数据 集 。 该 分 类 器 也 能 够 为 提高 精度 ， 对 输 


通用 


出 代码 进行 纠 错 。 基 分 类 器 必须 是 可 更 新 的 分 类 器 。 


对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug( 调 试 ): 如 果 设置 为 Tme， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
method( 方 法 ): 设置 将 多 分 类 问题 转化 成 几 个 2 级 分 类 问题 所 使 用 的 方法 。 
IandomWidthFactor( 随 机 宽度 系数 ): 设置 使 用 随机 码 时 的 宽度 乘 子 。 所 生成 的 代 
码 数量 因此 需 与 分 类 数量 进行 数 乘 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 

usePairwiseCoupling( 使 用 成 对 耦合 ): 使 用 成 对 耦合 ( 仅 对 1 对 1 有 效 )。 


12) MultiScheme 
根据 几 个 分 类 器 对 训练 数据 进行 交叉 验证 或 在 训练 数据 上 的 表现 ， 从 中 选择 一 个 分 类 


器 的 类 。 
通用 


根据 正确 率 ( 分 类 ) 或 均 方 误差 (回归 ) 衡 量 其 表现 。 

对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug( 调 试 ): 是 否 将 调试 信息 输出 到 控制 台 。 

numFolds( 折 数 ): 用 于 交叉 验证 的 折 数 。 如 果 为 0， 表示 使 用 训练 数据 的 表现 。 
seed( 种 子 ): 用 于 交叉 验证 的 随机 化 数据 种 子 。 


监 祠 讲 粮 epN 9 浏 导 全 


@« 


Or« 


数据 挖掘 与 机 器 学 习 
一 一 WEKA 应 用 技术 与 过 三 


13) RandomCommittee 
用 于 构建 可 随机 化 系 综 的 基 分 类 器 类 。 每 个 基 分 类 器 采用 不 同 的 随机 数 种 子 (但 基于 相 
同 的 数据 ) 构 建 。 最 终 的 预测 是 单个 基 分 类 器 所 产生 的 预测 的 直接 平均 。 


通 上 


对 象 编辑 器 界面 说 明 如 下 。 


classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug( 调 试 );: 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
numExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 (ensemble) 的 执行 槽 的 数量 ( 线 
程 )。 

numlterations( 迭 代 次 数 ):， 要 执行 的 迭代 次 数 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 


14) RandomSubSpace 
本 方法 构建 一 个 决策 树 ， 其 基础 为 对 训练 数据 保持 最 高 的 准确 度 ， 并 在 复杂 度 提 高 时 
相应 提高 泛 化 精度 的 分 类 器 。 该 分 类 器 系统 地 通过 伪 随 机 选择 特征 矢量 的 组 件 子 集 构成 


树 ， 再 由 


通用 


多 棵 这 样 的 树 构建 而 成 。 即 树 由 随机 选择 的 子 空间 构成 。 

对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug( 调 试 );: 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
numExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 (ensemble) 的 执行 槽 的 数量 (线程 )。 
numIterations( 和 迭代 次 数 ): 要 执行 的 迭代 次 数 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 

subSpaceSize( 子 空间 大 小 ): 每 个 子 空间 的 大 小 。 如 果 小 于 1， 使 用 属性 数量 的 百 
分 比 ， 否 则 使 用 属性 的 绝对 数量 。 


15) RegressionByDiscretization 

采用 任意 分 类 器 ， 对 类 别 属性 已 离散 化 的 数据 副本 进行 分 类 的 回归 方案 。 其 预测 值 是 
每 个 离散 间隔 (每 个 间隔 以 预测 概率 为 基础 平均 分 类 值 的 预期 值 。 由 训练 数据 的 目标 值 和 
分 类 概率 权重 ， 通 过 构建 单 因素 的 密度 估计 器 ， 该 类 现在 也 支持 条 件 密度 估计 器 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
deleteEmptyBins( 删 除 空 箱 ): 是 否 在 离散 后 删除 空 箱 。 

estimatorType( 估 计 器 类 型 ): 使 用 的 密度 估计 器 。 

minimizeAbsoluteError( 最 小 化 绝对 误差 ): 是 否 最 小 化 绝对 误差 。 

numBins( 箱 数 ): 离散 化 的 箱 数 。 

useEqualFrequency( 使 用 等 频 ): 如 果 设 置 为 True， 则 使 用 等 频 分 箱 ， 而 不 是 等 宽 分 箱 。 


16) Stacking 


使 用 
通 上 


层 且 方法， 结合 多 个 分 类 器 ， 能 够 完成 分 类 或 回归 操作 。 

对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 


metaClassifier (元 分 类 器 ): 使 用 的 元 分 类 器 。 

numExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 (ensemble) 的 执行 槽 的 数量 (线程 )。 
numFolds( 折 数 ): 用 于 交叉 验证 的 折 数 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 


17) Vote 


组 合 
通用 


分 类 器 类 。 有 不 同 的 概率 估计 组 合 的 分 类 器 可 用 。 

对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

combinationRule( 组 合 规则 ): 所 使 用 的 组 合 规则 。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
preBuiltClassifiers( 预 建 分 类 器 ): 要 包括 的 预 建 序列 化 分 类 器 。 可 以 包含 本 分 类 器 
运行 后 构建 的 多 个 序列 化 分 类 器 。 注 意 ， 交 叉 验 证 中 包括 预 建 分 类 器 没有 意义 ， 
因为 这 些 分 类 器 是 静态 的 ， 并 且 其 模式 在 不 同 折 之 间 不 会 改变 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 


misc 


1) Im 


putMappedClassifier 


一 种 包装 分 类 器 ， 通 过 建立 训练 数据 (其 分 类 器 已 建成 ) 与 输入 测试 实例 的 结构 之 间 的 
映射 解决 训练 和 测试 数据 的 不 相 容 问题 。 在 输入 实例 中 没有 找到 的 模型 属性 接收 为 缺失 


值 ， 以 前 
中 加 载 一 
通 上 


没有 见 过 的 输入 标 称 属 性 值 也 照 此 处 理 。 可 以 训练 一 个 新 的 分 类 器 ， 或 者 从 文件 
个 现 有 的 分 类 器 。 


对 象 编辑 器 界面 说 明 如 下 。 


classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

debug8( 调 试 )， 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
ignoreCaseForNames( 忽 略 名 称 大 小 写 ): 匹配 属性 名 称 和 标 称 值 时 忽略 大 小 写 。 
modelPath( 模 型 路 径 ): 设置 加 载 模型 的 路 径 。 当 接收 到 第 一 个 测试 实例 时 ， 启 动 
加 载 。 环 境 变量 可 以 用 于 提供 路 径 。 

suppressMappingReport( 抑 制 映射 报告 ): 不 输出 模型 -输入 映射 (model-to-input 
mappings) 的 报告 。 

trim( 修 剪 ): 在 匹配 前 ， 从 每 一 属性 名 称 和 标 称 值 的 末尾 开始 修剪 白 空 。 


2) SerializedClassifier 


全 


同 围 包装 的 序列 化 分 类 器 模型 。 本 分 类 器 加 载 一 个 序列 化 模型 ， 并 用 它 来 进行 预测 。 


警告 : 由 于 序列 化 模型 不 会 改变 ， 本 分 类 器 不 能 使 用 交叉 验证 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 
debug( 调 试 )， 如 果 设置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
modelFile( 模 型 文件 ): 用 于 预测 的 序列 化 分 类 器 模型 。 


名 在 Weka API 中 有 该 条 ， 但 在 对 象 编辑 器 界面 中 没有 ， 估 计 是 BUG。 
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rules 


1) DecisionTable 
为 建立 和 使 用 简单 决策 表 的 多 数 分 类 器 类 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
crossVal( 交 叉 值 ): 设置 交叉 验证 的 折 数 (1 = 留 一 法 )。 
debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
displayRules( 显 示 规 则 ): 设置 是 否 要 将 规则 打印 出 来 。 
evaluationMeasure( 评 估 措 施 ): 用 于 决策 表 中 对 属性 组 合 的 性 能 进行 评估 的 措施 。 
search( 搜 索 ): 在 决策 表 中 用 于 查找 好 的 属性 组 合 的 搜索 方法 。 

。 “use( 使 用 IBk): 设置 是 否 使 用 IBk 来 代 蔡 多 数 类 。 

2) JRip 

该 类 实现 了 命题 规则 学 习 ， 重 复 增 量 修剪 以 减少 产生 错误 (RIPPER)，RIPPER 是 由 
William W. Cohen 提出 的 一 个 优化 版 本 的 IREP。 

该 算法 的 简要 描述 如 下 。 

初始 化 RS= {}，FOR 从 使 用 较 少 到 使 用 更 频繁 的 每 个 类 ，DO: 

(1) 构建 阶段 : 

重复 (A) 和 (B)， 直 到 规则 集 和 样本 的 描述 长 度 (DL) 比 至 今 遇 到 过 的 最 小 DL 长 64 位 ， 
或 者 没有 正 例 ， 或 者 错误 率 > = 50%。 

(A) 成 长 阶段 : 

通过 向 规则 贪 禁地 添加 前 置 因素 (或 条 件 )， 直 到 规则 完美 ( 即 100% 准 确 )， 以 增强 规 
则 。 程 序 尝 试 每 个 属性 的 每 一 个 可 能 值 ， 并 选择 具有 最 高 信息 增益 的 条 件 : p(log(p/t)- 
log(P/T))。 

(B) 修剪 阶段 : 

增 量 修剪 每 一 个 规则 ， 人 允许 修剪 前 置 因素 的 任意 最 终 序 列 ， 修 前 度量 为 p-n)/p+n) 一 一 
但 实际 上 是 2p/p+n) - 1， 所 以 在 实现 中 简单 使 用 p/p+n) (实际 上 是 (p+l)/p+n+2)， 因 
此 ， 如 果 p+n 为 0， 其 值 是 0.5)。 

(2) 优化 阶段 : 

生成 的 初始 规则 集 {Ri} 后 ， 使 用 步骤 1.1 和 1.2， 由 随机 化 数据 生成 并 修剪 每 个 规则 Ri 
的 两 个 变种 。 但 是 ， 一 个 变 体 是 由 一 个 空 规则 生成 的 ， 而 另 一 个 变 体 是 由 贪 禁地 向 初始 规 
则 添加 前 置 因素 生成 的 。 此 外 ， 这 里 使 用 修剪 度量 是 (TP+TN)/(P+N)， 然 后 ， 计 算 每 个 变 
体 的 最 小 可 能 DL 和 初始 规则 。 选 择 最 小 的 DL 所 在 的 变 体 作为 最 终 在 规则 集 Ri 的 代表 。 
当 检 查 完 Ri 中 的 全 部 规则 后 ， 如 果 残 差 仍然 为 正 ， 则 再 次 使 用 构建 阶段 ， 根 据 正 残 差 产 
生 更 多 规则 。 

(3) 删除 规则 集中 的 规则 将 增加 规则 所 在 的 整个 规则 集 的 DL， 并 添加 结果 规则 集 到 
RS。 

ENDDO 

需要 注意 的 是 ， 在 原来 的 ripper 程序 中 似乎 有 2 个 错误 ， 会 稍微 影响 到 规则 集 的 大 小 
和 精度 。 实 现 避 免 了 这 些 错 误 ， 因 此 和 Cohen 的 原始 实现 有 少许 不 同 。 即 使 修复 这 些 错 
误 ， 由 于 在 ripper 中 没有 定义 相同 频率 的 类 ， 似 乎 在 本 实现 与 原来 的 ripper 之 间 还 是 存在 


一 些 细微 的 差异 ， 尤 其 是 对 于 UCI 仓库 中 的 听力 学 数据 ， 其 中 有 几 个 实例 有 很 多 分 类 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 

ee ”checkErrorRate( 检 查 错误 率 ): 是 否 在 停止 判 据 中 包括 检查 错误 率 >= 1/2。 
debug( 调 试 ): 是 否 输出 调试 信息 到 控制 台 。 
folds( 折 ): 确定 用 于 修剪 的 数据 量 。 一 折 用 于 修剪 ， 其 余 用 于 生成 规则 。 
minNo( 最 小 权重 ): 在 一 个 规则 中 的 实例 的 最 小 总 权重 。 
optimizations (优化 次 数 ): 运行 优化 的 次 数 。 
seed( 种 子 ): 用 于 随机 化 数据 的 种 子 。 

e ”usePruning( 使 用 修剪 ): 是 否 进行 修剪 。 

3) MS5SRules 

对 于 回归 问题 使 用 分 治 策略 生成 决策 表 。 在 每 一 次 欠 代 中 ， 使 用 M5 并 将 “最 好 ” 叶 
子 构成 规则 ， 以 构建 模型 树 。 

通用 对 象 编 辑 器 界面 说 明 如 下 。 

e@ ”buildRegressionTree( 生 成 回归 树 ):， 是 否 生成 回归 树 /规则 ， 而 不 是 模型 树 / 规 则 。 
debug( 调 试 );: 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
minNumInstances( 最 小 实例 数目 ): 在 一 个 叶子 节点 下 允许 实例 的 最 小 数目 。 
generateRules( 产 生 规则 ): 是 否 产生 规则 (决策 表 )， 而 不 是 树 。 
unpruned( 未 修剪 ): 是 否 产生 未 修剪 的 树 /规则 。 

e@ ”useUnsmoothed( 使 用 不 光滑 )， 是 否 使 用 不 光滑 的 预测 。 

4) OneR 

用 于 构建 和 使 用 1R 分 类 器 的 类 。 换 句 话说 ， 使 用 最 小 误差 属性 进行 预测 ， 将 数值 属 
性 离散 化 。 

通用 对 象 编 辑 器 界面 说 明 如 下 。 

e。 ”debug( 调 试 );: 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 

e ”minBucketSize( 最 小 桶 大 小 ): 用 于 数值 属性 离散 化 的 最 小 桶 的 大 小 。 

5) PART 

使 用 分 治 方法 产生 PART 决策 表 的 类 。 在 每 次 迭代 中 构建 局 部 C4.5 决策 树 ， 并 将 
“最 好 ”叶子 构成 规则 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e ”binarySplits( 二 元 分 裂 ): 构建 局 部 树 时 是 否 使 用 二 元 分 裂 标 称 属性 。 

econfidenceFactor( 置 信 系 数 ): 用 于 修剪 的 置信 系数 (数值 越 小 ， 导 致 更 多 的 修剪 )。 
e@ ”debug( 调 试 ); 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
四 
四 


IminNumObj( 最 少 对 象 数目 ): 每 条 规则 实例 的 最 小 数目 。 
numFolds( 折 数 ): 确定 用 于 减少 错误 修剪 的 数据 量 。 一 折 用 于 修剪 ， 其 余 用 于 生成 
规则 。 

TeducedErrorPruning( 减 小 误差 修剪 ): 是 否 使 用 减 小 误差 修剪 代替 C4.5 修剪 。 
seed( 种 子 ): 使 用 减少 错误 修剪 时 ， 用 于 随机 化 数据 的 种 子 。 
unpruned( 不 修剪 ): 是 否 进行 修剪 。 

useMDLcorrection( 使 用 MDL 校正 ): 是 否 在 查找 数值 属性 分 裂 时 使 用 MDL 校 
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6) ZeroR 


分 类 )。 


于 构建 和 使 用 一 个 0-R 分 类 器 的 类 。 预 测 均值 (一 个 数值 分 类 ) 或 模式 (一 个 标 称 


通用 对 象 编辑 器 界面 说 明 如 下 。 
debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 


trees 


1) DecisionStump 
构建 和 使 用 决策 树桩 类 。 一 般 与 提升 (boosting) 算 法 配合 使 用 ， 完 成 (基于 均 方 误差 的 ) 
回归 或 (基于 粹 的 ) 分 类 。 将 缺失 视 为 一 个 单独 的 值 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ); 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
2) J48 

产生 修剪 或 未 修剪 C4.5 决策 树 的 类 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 


binarySplits( 二 元 分 裂 ): 构建 树 时 是 否 使 用 二 元 分 裂 标 称 属性 。 
collapseTree( 折 又 树 ): 无 论 删 除 哪 些 部 分 ， 不 应 降低 训练 误差 。 
confidenceFactor( 置 信 系 数 )， 用 于 修剪 的 置信 系数 (数值 越 小 ， 导 致 更 多 的 修剪)。 
debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
minNumObj( 最 少 对 象 数目 ): 每 片 叶子 实例 的 最 小 数目 。 

numFolds( 折 数 ):， 确定 用 于 减少 错误 修剪 的 数据 量 。 一 折 用 于 修剪 ， 其 余 用 于 生成 树 。 
reducedErrorPruning( 减 小 误差 修剪 ): 是 否 使 用 减 小 误差 修剪 代替 C4.5 修剪 。 
saveInstanceData( 保 存 实例 数据 ): 是 否 要 为 可 视 化 保存 训练 数据 。 

seed( 种 子 ): 使 用 减少 错误 修剪 时 ， 用 于 进行 随机 化 数据 的 种 子 。 
subtreeRaising( 子 树 提 升 ): 是 否 在 修剪 时 考虑 子 树 提升 操作 。 

unpruned( 未 修剪 ): 是 否 进行 修剪 。 

useLaplace( 使 用 Laplace): 是 否 基于 Laplace 对 平滑 的 叶子 进行 计数 。 
useMDLcorrection( 使 用 MDL 校正 ): 是 否 在 查找 数值 属性 分 裂 时 使 用 MDL 校正 。 


3)LMT 

构建 “logistic 模型 树 ” 的 分 类 器 ， 它 对 树叶 使 用 logistic 回归 函数 进行 树 的 分 类 。 该 
算法 可 以 处 理 二 元 和 多 类 目标 变量 、 数 值 和 标 称 值 以 及 缺失 值 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 


convertNominal( 转 换 标 称 属性 )， 先 将 全 部 标 称 属性 转换 为 二 元 属性 ， 然 后 再 构建 
树 。 这 意味 着 最 终 树 的 所 有 分 裂 都 是 二 元 的 。 

debug( 调 试 );: 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
errorOnProbabilities( 错 误 概 率 ): 当 交 叉 验 证 LogitBoost 友 代 次 数 时 ， 减 少 错误 的 
发 生 概 率 ， 而 不 是 误 分 的 数量 。 如 果 置 位 ， 选 择 LogitBoost 迭代 次 数 的 根据 是 ， 
均 方 根 误差 最 小 化 ， 而 非 误 分 错误 最 小 化 。 


fastRegression( 快 速 回归 ): 使 用 启发 式 ， 避 免 了 在 每 一 个 节点 交叉 验证 Logit- 
Boost 的 迭代 次 数 。 当 在 一 个 节点 拟 合 logistic 回归 函数 时 ，LMT 必须 确定 运行 
的 LogitBoost 迭代 次 数 。 初 始 时 ， 树 中 的 每 个 节点 对 该 次 数 进行 交叉 验证 。 为 了 
节省 时 间 ， 启 发 式 交叉 验证 该 次 数 只 进行 一 次 ， 然 后 在 树 中 的 每 个 节点 都 使 用 该 
数字 。 通 常 ， 这 不 会 降低 精度 ， 反 而 大 大 提高 运行 效率 。 
IminNumInstances( 实 例 的 最 小 数目 ): 设置 想 要 进行 分 裂 的 节点 中 实例 的 最 小 数 
目 ， 默 认 值 为 15。 

numBoostingIterations(LogitBoost 迭代 次 数 ): 设置 LogitBoost 的 固定 迭代 次 数 。 
如 果 大 于 或 等 于 0， 树 中 的 每 个 地 方 都 使 用 设置 的 LogitBoost 固定 迭代 次 数 。 如 
果 小 于 0， 该 数字 用 于 交叉 验证 。 

splitOnResiduals( 基 于 残 差分 裂 ): 基于 LogitBoost 的 残 差 设置 分 裂 标准 。LMT 有 
两 种 可 能 的 分 裂 标准 : 默认 是 使 用 C4.5 的 分 裂 标准 ， 它 使 用 信息 增益 的 分 类 变 
量 ; 另 一 个 分 裂 标准 是 在 拟 合 logistic 回归 函数 时 ， 试 图 提高 残 差 产生 的 纯度 。 
分 裂 标准 的 选择 通常 不 太 影响 分 类 的 准确 度 ， 但 可 以 产生 不 同 的 树 。 
useAIC( 使 用 AIC): 使 用 AIC 以 确定 何 时 停止 LogitBoost 迭代 ， 默 认 不 用 AIC。 
weightTrimBeta( 权 重 裁 前 PB 值 ): 设置 在 LogitBoost 权重 裁剪 中 使 用 的 Z 值 。 只 有 带 
有 前 一 轮 和 迭代 中 权重 的 (1 - D% 的 实例 ， 可 以 在 下 一 轮 从 代 中 使 用 。 设 置 为 0， 则 
不 使 用 权重 裁剪 。 默 认 值 为 0。 


4) M5P 


Java 


类 名 为 M5Base。 实 现 产 生 M5 模型 树 和 规则 的 基本 例 程 。 


最 初 的 M5 算法 由 R. Quinlan 发 明 ，Yong Wang 做 了 改进 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

buildRegressionTree( 生 成 回归 树 ): 是 否 生 成 回归 树 /规则 ， 而 不 是 一 个 模型 树 / 
规则 。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
minNumInstances( 实 例 的 最 小 数目 ): 设置 一 个 叶子 节点 中 实例 允许 的 最 小 数目 。 
saveInstances( 保 存 实例 ): 是 否 为 可 视 化 目的 而 保存 树 的 每 个 节点 的 实例 数据 。 
unpruned (未 修剪 ): 是 否 产生 未 修剪 的 树 /规则 。 

generateRules( 产 生 规则 )2: 是 否 产生 规则 (决策 列表 )， 而 不 是 一 棵 树 。 
useUnsmoothed( 使 用 未 平滑 ): 是 否 使 用 未 平滑 预测 。 


5) RandomForest 
构建 由 随机 树 组 成 的 森林 类 。 


通用 
. 
. 


对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 如 果 设 置 为 True， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
maxDepth( 最 大 深度 ): 树 的 最 大 深度 ，0 为 无 限制 。 

numExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 (ensemble) 的 执行 槽 的 数量 
(线程 )。 


@ 在 Weka API 中 有 该 条 ， 但 在 对 象 编辑 器 界面 中 没有 ， 估 计 是 BUG。 
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numFeatures( 特 性 数量 ): 用 于 随机 选择 的 属性 数量 (参见 RandomTree)。 
numTrees( 树 的 数量 ): 要 生成 的 树 的 数量 。 

printTrees( 打 印 树 ): 在 输出 中 打印 的 单 棵 树 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 


6) RandomTree 
构建 一 棵 树 的 类 ， 树 的 每 个 节点 通盘 考虑 丰 个 随机 选择 的 属性 ， 不 进行 修剪 。 也 有 一 


个 选项 ， 


通 上 


是 否 允 许 以 取出 (hold-out) 集 ( 回 切 ) 为 基础 的 估计 分 类 概率 。 

对 象 编辑 器 界面 说 明 如 下 。 

KValue(K 值 ): 设置 随机 选择 的 属性 数量 。 如 果 为 0， 使 用 
log 2(number of attributes) + 1。 

allowUnclassifiedInstances( 人 允许 未 分 类 实例 )， 是 否 允 许 未 分 类 实例 。 

debug( 调 试 ): 如 果 设置 为 Tme， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 
maxDepth( 最 大 深度 ): 树 的 最 大 深度 ，0 为 无 限制 。 

minNum( 最 小 值 ): 在 一 片 叶子 上 的 实例 的 总 权重 的 最 小 值 。 

numFolds( 折 数 ): 确定 用 于 回 切 的 数据 量 。 一 折 用 于 回 切 ， 其 余 用 于 生成 树 。 默 
认 值 为 0， 不 回 切 。 

seed( 种 子 ): 用 于 选择 属性 的 随机 数 种 子 。 


7) REPTree 
快速 决策 树 学 习 者 。 使 用 信息 增益 /方差 和 修剪 ， 减 少 错误 修剪 ( 回 切 )， 构 建 一 个 决策 / 


回归 树 。 
一 样 )。 


只 有 对 数值 属性 值 排序 一 次 ， 由 相应 的 实例 分 裂 成 片 来 处 理 缺 失 值 ( 即 和 C4.5 中 


对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 如果 设置 为 True， 分 类 器 可 以 额外 信息 输出 到 控制 台 。 
initialCount( 初 始 化 计数 ): 初始 化 分 类 值 的 计数 。 

maxDepth( 最 大 深度 ): 树 深度 的 最 大 值 (-1 为 不 限制 )。 

minNum( 最 小 数量 ): 叶子 实例 总 权重 的 最 小 值 。 

minVarianceProp(): 需要 出 现在 一 个 节点 中 ， 进 行 回归 树 分 裂 的 全 部 数据 方差 的 
最 小 比例 。 

noPruning( 不 修剪 ): 是 否 进行 修剪 。 

numFolds( 折 数 )， 确 定 用 于 修剪 的 数据 量 。 一 折 用 于 修剪 ， 其 余 用 于 生成 树 。 
seed( 种 子 ): 用 于 随机 化 数据 的 种 子 。 

spreadInitialCount( 传 播 初始 计数 ): 初始 计数 传播 至 全 部 值 ， 而 不 使 用 每 个 值 的 
计数 。 


聚 类 算法 介绍 


以 下 按 英文 词典 顺序 列 出 Weka 常用 的 聚 类 算法 。 
1) Cobweb 
Cobweb 和 Classit 的 聚 类 算法 的 实现 类 。 


注意 
Classit 的 
的 宿主 ， 

通 上 


: 本 实现 在 应 用 节点 运算 符 (合并 、 拆 分 等 ) 的 顺序 和 优先 级 方面 ， 与 Cobweb 和 
论文 有 稍 许 不 同 。 该 算法 总 是 最 好 的 宿主 (host)， 增 加 了 新 的 叶子 ， 合 并 两 个 最 好 
考虑 何 处 放置 新 实例 时 分 裂 最 好 的 宿主 。 

对 象 编辑 器 界面 说 明 如 下 。 

acuity( 敏 度 ): 为 数值 属性 设 定 最 低 的 标准 差 。 

cutoff( 截 止 值 ): 设置 修剪 节点 的 效用 阔 值 类 别 。 

saveInstanceData( 保 存 实例 数据 ): 为 可 视 化 目的 而 保存 实例 信息 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 ， 不 随机 化 则 将 该 值 设 为 -1。 


2) EM 


简单 

EM 
验证 创建 

进行 


的 EM(Expectation Maximisation， 期 望 最 大 化 ) 类 。 

为 每 个 实例 分 配 一 个 概率 分 布 ， 表 明 它 属 于 每 一 个 徐 的 概率 。 EM 能 决定 用 交叉 
多 少 个 艇 ,或 者 指定 产生 多 少 个 簇 的 先 验 。 

交叉 验证 以 确定 簇 的 数量 ， 操 作 步 骤 如 下 。 


(1) 设置 复数 为 1。 

(2) 训练 集 随机 分 为 10 折 。 

(3) EM 运行 10 次 ， 使 用 10 折 ， 这 是 通常 的 交叉 验证 方式 。 

(4) 对 数 似 然 是 所 有 10 个 结果 的 平均 值 。 

(5) 如 果 对 数 似 然 有 所 增加 ， 簇 数 增 1， 并 跳 至 步骤 2 继续 执行 。 

只 要 在 训练 集中 的 实例 数目 是 不 小 于 10， 折 数 固定 为 10。 否 则 ， 设 置 折 数 与 实例 数 


量 相等 。 
通用 


对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 如 果 设置 为 Tme， 聚 类 器 可 以 输出 额外 信息 到 控制 台 。 
displayModelInOldFormat( 显 示 模 型 用 旧 格 式 ): 模型 输出 使 用 旧 格 式 。 当 簇 数 很 
多 ， 旧 格式 更 好 ， 当 艇 数 很 少 且 属 性 很 多 ， 新 格式 更 好 。 
maxIterations( 最 大 迭代 ): 最 大 连 代 次 数 。 

minStdDev( 最 小 标准 差 ): 设置 允许 的 最 小 标准 差 。 

numClusters( 簇 数 ): 设置 复数 。 值 为 -1， 交 叉 验 证 来 自动 选择 复数 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 


3) FarthestFirst 


使 用 
注 : 


外 
通用 


FarthestFirst( 最 远 优先 ) 算 法 聚 类 数据 。 


为 一 种 快速 、 简 单 、 近 似 的 聚 类 器 

仿照 SimpleKMeans 建 模 ， 是 一 个 有 用 的 初始 化 工具 
对 象 编辑 器 界面 说 明 如 下 。 

numClusters( 秘 数 ):， 设置 簇 数 。 

seed( 种 子 ): 要 使 用 的 随机 数 种 子 。 


4) FilteredClusterer 


用 于 运行 的 任意 聚 类 器 的 类 ， 其 数据 已 通过 任意 一 个 滤波 器 。 和 聚 类 器 一 样 ， 过 滤器 


结构 只 以 训练 数据 为 基础 ， 在 处 理 测试 实例 时 过 滤器 不 改变 其 结构 。 
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通用 


对 象 编辑 器 界面 说 明 如 下 。 
clusterer( 聚 类 器 ): 要 使 用 的 基 聚 类 器 。 
filter( 过 滤器 ): 要 使 用 的 过 滤器 。 


5) HierarchicalClusterer 
分 层 聚 类 的 类 。 
实现 一 些 基 于 经 典 agglomorative( 即 自 底 向 上 ) 的 层次 聚 类 方法 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

debug( 调 试 ): 如 果 设置 为 Tme， 分 类 器 可 以 输出 额外 信息 到 控制 台 。 

distanceFunction( 距 离 函数 ): 设置 的 距离 函数 ， 该 函数 测量 两 个 个 体 实例 间 的 距 

离 。 也 可 以 是 一 个 实例 与 依据 linkType 的 簇 质 心 之 间 的 距离 。 

distanceIsBranchLength( 距 离 为 枝 长 ): 如 果 设 置 为 False， 簇 之 间 的 距离 解释 为 连 

接 簇 的 节点 高 度 。 对 于 某 些 聚 类 (如 单 链 路 聚 类 ) 这 很 适当 。 但 是 ， 如 果 加 入 邻 

居 ， 距 离 解 释 为 枝 长 更 好 。 设 置 此 标志 ， 则 解释 为 后 者 。 

linkType( 链 接 类 型 ): 设置 用 于 测量 两 个 簇 之 间距 离 的 方法 。 选 项 如 下 。 

。* ”SINGLE( 单 个 ) 一 一 找到 单 链 路 距离 ， 又 名 最 小 链 路 ， 这 是 位 于 clusterl 的 任 
意 项 与 位 于 cluster2 的 任意 项 之 间 的 最 近 距 离 。 

4 COMPLETE( 完 整 ) 一 一 找到 完整 的 链 路 距离 ， 又 名 最 大 链接 ， 这 是 位 于 
clusterl 的 任意 项 与 位 于 cluster2 的 任意 项 之 间 的 最 大 距离 。 

4 ， ADJCOMLPETE( 完 整 调 整 ) 一 一 与 COMPLETE 相似 ， 但 加 上 调整 ， 这 是 最 
大 的 簇 内 距离 。 

* ”AVERAGE( 平 均 ) 一 一 找到 的 两 个 簇 元 素 之 间 的 平均 距离 。 

* ”MEAN( 平 均 ) 一 一 计算 合并 后 的 入 (又 名 成 组 平均 agglomerative 聚 类 ) 的 平均 
距离 。 

CENTROID( 质 心 ) 一 一 找到 簇 的 质心 距离 。 

e WARD(WARD) 一 一 找到 因 合并 簇 引起 变化 的 距离 。 簇 信息 是 由 徐 及 其 成 员 
质心 的 平方 误差 之 和 计算 得 到 。 

4 ， NEIGHBOR _JOINING( 加 入 邻居 ) 一 一 使 用 加 入 邻居 算法 。 

numClusters( 徐 数 )， 设置 复数 。 如 果 需 要 单一 层次 ， 设 置 为 1。 

printNewick( 打 印 Newick): 指示 簇 是 否 应 以 Newick 格式 打印 的 标志 ， 显 示 在 其 

他 程序 中 可 能 有 用 。 然 而 ， 对 于 大 型 数据 集 可 能 会 产生 大 量 文字 ， 但 在 不 需要 

Newick 格式 时 ， 也 不 一 定 烦琐 。 


6) MakeDensityBasedClusterer 
使 其 返回 分 布 和 密度 的 聚 类 器 的 包装 类 。 在 包装 聚 类 器 生成 的 每 个 簇 内 拟 合 正 态 分 布 
和 离散 分 布 。 与 包装 聚 类 器 一 样 ， 支 持 NumberOfClustersRequestable 界面 。 


通 上 


对 象 编辑 器 界面 说 明 如 下 。 
clusterer( 聚 类 器 ): 要 包装 的 聚 类 器 。 
minStdDev( 最 小 标准 差 ): 设置 允许 的 最 小 标准 差 。 


7) SimpleK Means 


使 用 


kk- 均值 算法 聚 类 数据 。 可 以 使 用 默认 的 欧 氏 距离 或 曼哈顿 距离 。 如 果 使 用 曼哈顿 


距离 ， 则 计算 质心 作为 分 量 形式 的 中 位 数 ， 而 不 是 平均 值 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 


displayStdDevs( 显 示 标 准 差 ): 显示 数值 属性 的 标准 差 ， 并 对 标 称 属性 进行 计数 。 
distanceFunction( 距 离 函 数 ): 用 于 比较 实例 的 距离 函数 ， 默 认为 欧 氏 距离 ， 即 
weka.core.EuclideanDistance。 

dontReplaceMissingValues( 不 蔡 换 缺失 值 ):， 在 全 局 范围 使 用 平均 /模式 (mean/mode) 
来 蔡 换 缺失 值 。 

fastDistanceCalc( 加 速 距离 计算 ): 使 用 临界 值 加 速 距离 计算 ， 但 也 抑制 了 簇 内 的 
误差 平方 之 和 /距离 之 和 的 计算 和 输出 。 

initializeUsingKMeansPlusPlusMethod( 使 用 k-means++ 方 法 初始 化 ): 使 用 k- 
means++ 算 法 的 最 远 优先 概率 方法 ， 初 始 化 簇 中 心 。 

ImaxJterations( 最 大 友 代 ): 设置 最 大 友 代 次 数 。 

numClusters( 簇 数 ):， 设置 徐 数 。 

preserveInstancesOrder( 保 持 实例 顺序 ):， 保持 实例 顺序 。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 


关联 算法 介绍 


以 下 按 英文 词典 顺序 列 出 Weka 常用 的 关联 算法 。 

1) Apriorl 

Apriori 型 算法 的 实现 类 。 迭 代 减 少 最 小 支持 ， 直 到 找到 满足 给 定 最 小 置信 度 的 ， 所 需 
数量 的 规则 。 

该 算法 有 一 个 选项 : 挖掘 分 类 关联 规则 ， 它 适合 解释 为 第 二 参考 。 


通用 


对 象 编辑 器 界面 说 明 如 下 。 

car( 分 类 关联 规则 ): 如 果 启 用 ， 则 采用 分 类 关联 规则 挖掘 ， 而 不 是 (普通 ) 的 关联 
规则 挖掘 。 

classIndex( 分 类 索引 ): 类 别 属 性 的 索引 。 如 果 设 置 为 -1， 最 后 一 个 属性 作为 类 别 
属性 。 

delta(delta): 该 因子 迭代 降低 支持 。 减 少 支持 ， 直 到 达到 min 支持 ， 或 者 已 经 产 
生 规 定数 量 的 规则 。 

lowerBoundMinSupport( 最 小 支持 度 下 界 ): 最 小 支持 度 的 下 界 。 
minMetric( 最 小 度量 ): 度量 最 小 分 数 ， 只 考虑 分 数 高 于 此 值 的 规则 。 
metricType( 度 量 类 型 ): 设置 排序 规则 的 度量 类 型 。 置 信 度 (confidence) 是 能 为 结果 
(consequence) 履 盖 的 同时 也 能 为 前 提 (consequence) 履 盖 的 样本 比例 (分 类 关联 规则 
只 能 在 使 用 置信 度 才 予以 关注 )。 提 升 度 (lifb 是 置信 度 除 以 全 部 样本 中 结果 覆盖 的 
比例 ， 这 是 关联 的 一 个 重要 性 度量 ， 独 立 于 支持 度 。 如 果 前 提 和 结果 相互 独立 ， 
杠杆 率 (leverage) 是 额外 样本 由 前 提 和 结果 覆盖 的 ， 高 于 预期 的 比例 。 样 本 总 数 表 
示 为 杠杆 率 后 的 括号 。 确 信 度 (conviction) 是 不 满足 独立 条 件 的 另 一 种 度量 ， 其 计 


算 由 公式 P(premise)P(!consequence) / P(premise, !consequence) 给 定 。 
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numRules( 规 则 数 ): 找到 的 规则 数 。 
outputItemSets( 输 出 项 目 集 ): 如 果 启 用 ， 输 出 项 目 集 。 
TemoveAllMissingCols( 删 除 所 有 缺失 列 ): 删除 所 有 缺失 值 的 列 。 
significanceLevel( 显 著 性 水 平 ): 显著 性 水 平 ， 显 著 性 检验 ( 仅 用 于 置信 度 度 量 )。 
treatZeroAsMissing( 按 照 缺 失 值 处 理 零 ): 如 果 启 用 ， 零 ( 即 ， 标 称 型 的 第 一 个 值 ) 按 
照 缺 失 值 的 相同 方式 处 理 。 
e ”upperBoundMinSupport( 最 小 支持 度 上 界 ): 最 小 支持 度 上 界 。 从 该 值 开 始 迭 代 降 
低 最 小 支持 度 。 
e@ ”verbose( 详 细 ): 如 果 启 用 ， 算 法 将 在 详细 模式 下 运行 。 
2) FilteredAssoclator 
用 于 运行 任意 关联 器 的 类 ， 其 数据 已 经 先 通过 一 个 任意 滤波 器 。 与 关联 器 一 样 ， 过 滤 
器 结构 完全 基于 训练 数据 ， 并 且 由 过 滤器 处 理 的 测试 实例 将 不 会 改变 其 结构 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e@ ”associator( 关 联 器 ): 要 使 用 的 基 关 联 器 。 
e@ “classIndex( 分 类 索引 ): 类 别 属 性 的 索引 。 如 果 设 置 为 -1， 最 后 一 个 属性 作为 类 别 属性 。 
e filter( 过 滤器 ): 要 使 用 的 过 滤器 。 
3) FPGrowth 
FP-growth 算法 的 实现 类 ， 寻 找 大 的 项 集 而 不 产生 候选 集 。 和 迭代 降低 最 小 的 支持 度 ， 
直到 找到 所 需 数 量 的 满足 给 定 最 小 度量 的 规则 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e@ ”delta(delta): 该 因子 迭代 降低 支持 。 减 少 支持 ， 直 到 达到 min 支持 ， 或 者 已 经 产 
生 规 定数 量 的 规则 。 
e findAllRulesForSupportLevel( 查 找 满 足 支持 度 的 全 部 规则 ): 查找 满足 最 小 支持 度 
和 最 小 度量 约束 下 界 的 全 部 规则 。 打 开 此 模式 ， 将 禁用 人 迭 代 减 少 支持 度 的 过 程 ， 
该 过 程 用 于 查找 指定 数量 的 规则 。 
e ”lowerBoundMinSupport( 最 小 支持 度 下 界 ): 最 小 支持 度 的 下 界 ， 为 实例 数量 或 一 个 
分 数 。 
maxNumberOfItems(): 包括 在 频繁 项 集中 项 的 最 大 数量 。-1 表示 没有 限制 。 
metricType( 度 量 类 型 ): 设置 排序 规则 的 度量 类 型 。 
minMetric( 最 小 度量 ): 最 小 度量 分 数 ， 只 考虑 分 数 高 于 此 值 的 规则 。 
numRulesToFind( 查 找 的 规则 数 )， 输 出 的 规则 数 。 
positiveIndex( 正 索引 ): 设置 二 元 属性 的 索引 ， 只 考虑 为 正 的 索引 。 不 影响 稀疏 数 
据 ( 在 这 种 情况 下 ， 第 一 个 索引 ( 即 非 零 值 ) 始 终 作 为 正 数 处 理 )。 对 一 元 值 属 性 也 没 
有 效果 ， 即 ， 使 用 Weka 的 Apriori-style 格式 表示 市 场 购物 篮 数据 ， 缺 失 值 使 用 
“? ”来 表示 缺失 该 项 。 
e rulesMustContain( 规 则 必须 包含 ): 仅 打印 包含 这 些 项 的 规则 ， 须 提供 一 个 逗号 分 
隔 的 属性 名 称 列表 。 
e@ transactionsMustContain( 事 务必 须 包含 ): 只 允许 包含 这 些 项 的 事务 (实例 ) 输 入 至 
FPGrowth， 须 提供 一 个 逗号 分 隔 的 属性 名 称 列 表 。 


e ”upperBoundMinSupport( 最 小 支持 度 上 界 ): 最 小 支持 度 上 界 ， 为 实例 数量 或 一 个 
分 数 。 从 该 值 开始 迭代 降低 最 小 支持 度 。 

e@ ”useORForMustContainList( 必 须 包 含 列表 中 使 用 OR): 在 事务 /规则 必须 包含 的 列 
表 中 使 用 OR 替换 AND。 


选择 属性 算法 介绍 


Weka 的 选择 属性 算法 分 为 属性 评估 器 和 搜索 方法 两 类 。 
属性 评估 器 
1) CfsSubsetEval 
通过 考虑 单个 属性 的 预测 每 个 特征 的 能 力 ， 以 及 它们 之 间 的 元 余 度 ， 评 估 属 性 子 集 的 
价值 。 
首选 的 特征 子 集 是 : 与 类 别 属性 高 度 相关 ， 同 时 相互 之 间 相 关 度 低 。 
通用 对 象 编 辑 器 界面 说 明 如 下 。 
e@ locallyPredictive( 本 地 预测 性 )， 确 定 本 地 预测 性 属性 。 和 迭代 地 添加 具有 与 类 别 属 
性 最 高 相关 性 的 属性 ， 只 要 属性 子 集中 还 不 具有 更 高 相关 性 的 属性 。 
e ”missingSeparate( 缺 失 值 为 单独 值 ): 将 缺失 值 作为 一 个 单独 的 值 。 否 则 ， 将 缺失 值 
记 为 分 布 在 与 出 现 频率 成 比例 的 其 他 值 。 
2) CorrelationAttributeEval 
通过 测量 它 与 分 类 之 间 的 (Pearson) 相 关 性 ， 评 估 一 个 属性 的 价值 。 
将 每 个 值 作为 一 个 指示 器 处 理 ， 从 而 将 标 称 属 性 视 为 数值 。 通 过 加 权 平 均 ， 得 到 一 个 
标 称 属性 的 整体 相关 性 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 
outputDetailedInfo( 输 出 详细 信息 ): 输出 标 称 属性 每 个 值 的 相关 性 。 
3) GainRatioAttributeEval 
通过 衡量 相对 于 分 类 的 增益 比 ， 评 估 一 个 属性 的 价值 。 公 式 如 下 : 
GainR(Class, Attribute) = (H(Class) - H(Class | Attribute)) / H(Attribute) 
通用 对 象 编辑 器 界面 说 明 如 下 。 
missingMerge( 合 并 缺失 值 ): 记 数 缺失 值 分 布 。 记 数值 为 分 布 在 与 出 现 频率 成 比例 的 其 
他 值 。 和 否则， 将 缺失 值 作 为 一 个 单独 的 值 。 
4) InfoGainAttributeEval 
通过 衡量 相对 于 分 类 的 信息 增益 ， 评 估 一 个 属性 的 价值 。 公 式 如 下 。 
InfoGain(Class,Attribute) = H(Class) - H(Class | Attribute). 
通用 对 象 编辑 器 界面 说 明 如 下 。 
e binarizeNumericAttributes( 二 元 化 数值 属性 ): 将 数值 属性 二 元 化 ， 而 不 是 离散 化 。 
e missingMerge( 合 并 缺失 值 ): 记 数 缺失 值 分 布 。 记 数值 为 分 布 在 与 出 现 频率 成 比 
例 的 其 他 值 。 否 则 ， 将 缺失 值 作为 一 个 单独 的 值 。 
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5) OneRAttributeEval 

使 用 OneR 分 类 器 ， 评 估 属 性 的 价值 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e ”evalUsingTrainingData( 使 用 训练 数据 评估 ): 使 用 训练 数据 而 不 是 交叉 验证 来 评估 
属性 。 

efolds( 折 数 ): 设置 交叉 验证 的 折 数 。 

e minimumBucketSize( 桶 最 低 大 小 ): 一 个 桶 (传递 给 OneR) 中 对 象 的 最 低 数 量 。 

e@ ”seed( 种 子 ): 设置 用 于 交叉 验证 的 种 子 。 

6) PrincipalComponents 


进行 数据 的 主 成 分 分 析 和 转换 。 结 合 Ranker 搜索 使 用 。 降 低 维 数 是 通过 选择 占 原始 数 


据 的 方差 中 一 定 百分比 的 ， 足 够 的 特征 向 量 ， 默 认 值 为 0.95(95%)。 通 过 转换 到 PC 空间 ， 
可 以 过 滤 属 性 噪声 ， 消 除 一 些 最 差 的 特征 向 量 ， 然 后 变换 回 原来 的 空间 。 


从 


他 值 。 


通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ ”centerData( 中 心 数据 )， 中心 (而 不 是 标准 化 ) 数 据 。 由 协 方差 (而 不 是 相关 ) 和 矩阵 计算 
出 PCA。 

。 maximumAttributeNames( 属 性 名 称 最 大 值 ): 包括 已 转化 的 属性 名 称 ， 属 性 的 最 大 
数量 。 

e ”transformBackToOriginal( 转 换 回 原来 ): 通过 PC 空间 进行 转换 ， 并 转换 回 原来 的 
空间 。 如 果 仅 保留 最 优 的 N 个 PC( 通 过 设置 varianceCovered<1)， 则 此 选项 给 出 
原来 空间 的 数据 集 ， 但 属性 噪声 更 少 。 

e@ varianceCovered( 方 差 覆 盖 ): 保留 足够 的 PC 属性 ， 维 持 方差 比例 。 

7) ReliefF AttributeEval 

通过 对 一 个 实例 重复 采样 ， 并 考虑 最 接近 的 具有 相同 和 不 同 分 类 的 实例 中 给 定 属性 的 

来 评估 一 个 属性 的 价值 。 能 处 理 离散 和 连续 的 分 类 数据 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e numNeighbours( 邻 居 数 ): 用 于 属性 估计 的 最 近邻 居 数 。 

e@ ”sampleSize( 样 本 大 小 ): 要 采样 的 实例 数 。 默 认 值 (-1) 表 示 将 全 部 实例 用 于 属性 
估计 。 
seed( 种 子 ): 抽样 实例 的 随机 种 子 。 
sigma( 西 格 玛 ): 设置 最 近邻 居 的 影响 。 用 exp 函数 控制 随 着 实例 距离 的 增加 ， 权 
重 降低 的 速度 有 多 快 。 配 合 weightByDistance 选项 使 用 。 敏 感 值 = 最 近邻 数目 的 
1/10~1/5。 

e。 ”weightByDistance( 距 离 加 权 ): 根据 距离 ， 对 最 近 的 邻居 加 权 。 

8) SymmetricalUncertAttributeEval 

通过 测量 分 类 的 对 称 不 确定 性 ， 评 估 属 性 的 价值 。 公 式 如 下 。 

SymmU(Class, Attribute) = 2 * (H(Class) - H(Class | Attribute)) / H(Class) + H(Attribute) 

通用 对 象 编辑 器 界面 说 明 如 下 。 

missingMerge( 合 并 缺失 值 ): 记 数 缺失 值 分 布 。 记 数值 为 分 布 在 与 出 现 频率 成 比例 的 其 

和 否则， 将 缺失 值 作为 一 个 单独 的 值 。 


9) WrapperSubsetEval 

通过 使 用 学 习 方 案 ， 评 估 属 性 集 。 交 叉 验 证 用 于 估计 学 习 方案 对 一 组 属性 的 准确 度 。 
通用 对 象 编辑 器 界面 说 明 如 下 。 

classifier( 分 类 器 ): 用 来 估计 子 集 精度 的 分 类 器 。 

evaluationMeasure( 评 估 度 量 ): 用 于 对 属性 组 合 的 性 能 进行 评估 的 度量 。 
folds( 折 数 ): 估计 子 集 的 准确 性 时 使 用 的 xval 折 数 。 

seed( 种 子 ): 用 于 随机 产生 xval 分 裂 的 种 子 。 

threshold( 闵 值 ): 如 果 标 准 差 的 平均 值 超过 此 值 ， 重 复 xval。 


搜索 方法 


1) BestFirst 

采用 带 回 溯 增 强 的 贪 禁 爬 山 法 ， 搜 索 属 性 子 集 空间 。 设 置 连续 的 非 改 善 节点 的 数目 ， 
允许 控制 回溯 完成 的 级 别 。 最 佳 优 先 可 以 以 属性 空 集 开始 ， 并 向 前 搜索 ， 或 者 以 完整 属性 
集 开 始 ， 并 向 后 搜索 ， 或 者 以 任何 一 点 开始 ， 并 向 两 个 方向 搜索 (考虑 到 所 有 可 能 的 单一 属 
性 的 添加 以 及 给 定点 的 删除 )。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ ”direction( 方 向 ): 设置 搜索 的 方向 。 

e@ ”lookupCacheSize( 查 找 缓存 大 小 ): 设置 评估 子 集 的 查找 缓存 的 最 大 大 小 。 表 示 为 
一 个 乘 数 ， 其 值 为 数据 集 的 属性 数量 ， 默 认 值 为 1。 

e ”searchTermination( 搜 索 终点 ): 设置 回溯 量 ， 指 定数 量 。 

e “startSet( 搜 索 起 点 ): 设置 搜索 的 起 点 。 指 定 为 以 逗号 分 隔 的 属性 索引 列表 ， 索 引 
从 1 开始 ， 可 以 包括 范围 ， 例 如 ，1,2.5-9,17。 

2) GreedyStepwise 

执行 信 禁 向 前 或 向 后 的 属性 子 集 空间 搜索 。 可 能 以 没有 属性 /全 部 属性 开始 ， 或 者 从 任 

意 空间 点 开始 。 当 任意 剩余 属性 的 增加 /删除 会 导致 评估 降低 时 停止 。 通 过 从 一 侧 到 另 一 侧 
的 空间 遍历 ， 并 记录 选择 属性 的 顺序 ， 也 可 以 产生 一 个 属性 排序 表 。 

通用 对 象 编辑 器 界面 说 明 如 下 。 

e@ ”conservativeForwardSelection( 保 守 前 向 选择 ): 如 果 设 置 为 True( 并 且 选 中 向 前 搜 
索 )， 则 只 要 特性 不 降低 ， 将 继续 添加 属性 到 最 佳 子 集中 。 
generateRanking( 生 成 排序 ): 如 果 需 要 排序 表 ， 则 设置 为 True。 
numToSelect( 选 择 数 量 ): 指定 要 保留 的 属性 数量 ， 默 认 值 (-1) 指 定 保留 所 有 属 
性 。 使 用 此 选项 或 者 threshold 选项 以 减少 属性 集 。 

e@ searchBackwards( 向 后 搜索 ): 向 后 搜索 而 不 是 向 前 搜索 。 
startSet( 搜 索 起 点 ): 设置 搜索 的 起 点 。 指 定 为 以 逗号 分 隔 的 属性 索引 列表 ， 索 引 
从 1 开始， 可 以 包括 范围 ， 例 如 : 1,2,5-9,17。 

e threshold( 阔 值 ): 设 定 可 以 丢弃 属性 的 冰 值 。 默 认 值 为 不 丢弃 任何 属性 ， 与 
generateRanking 共同 使 用 。 

3) Ranker 

使 用 单个 属性 的 评估 进行 排序 。 与 属性 评估 器 (ReliefF、GainRatio、Entropy 等 ) 一 起 使 用 。 
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3 对象 编 辑 器 界面 说 明 如 下 。 


generateRanking( 生 成 排序 ): 一 个 常数 选项 。 Ranker 是 唯一 能 够 生成 属性 排序 的 
选项 。 

numToSelect( 选 择 数 量 ): 指定 保留 的 属性 。 默 认 值 (-1) 指 定 保留 所 有 属性 。 使 用 
此 选项 或 threshold 选项 以 减少 属性 集 。 

startSet( 搜 索 起 点 ): 设置 忽略 的 属性 集 。 当 生成 的 排序 时 ，Ranker 将 不 计算 在 此 
列表 中 的 属性 。 指 定 为 以 逗号 分 隔 的 属性 索引 列表 ， 索 引 从 1 开始 ， 可 以 包括 范 
围 ， 例 如 ， “1,2,5-9,17”。 

threshold( 阔 值 ): 设 定 可 以 丢弃 属性 的 阔 值 ， 默 认 值 为 不 丢弃 任何 属性 。 使 用 此 
选项 或 numToSelect 选项 以 减少 属性 集 。 
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